Wiesz Od Razu, że To Porno. Czy Komputer Zrozumie? - Alternatywny Widok

Spisu treści:

Pornografia dla sztucznej inteligencji

Wiesz Od Razu, że To Porno. Czy Komputer Zrozumie? - Alternatywny Widok

Wideo: Wiesz Od Razu, że To Porno. Czy Komputer Zrozumie? - Alternatywny Widok

Wideo: Wiesz Od Razu, że To Porno. Czy Komputer Zrozumie? - Alternatywny Widok — Wideo: Pornografia 2024, Wrzesień

2024 Autor: Keith Bush | [email protected]. Ostatnio zmodyfikowany: 2023-12-16 14:39

Tumblr ogłosił na początku zeszłego miesiąca, że zakazuje pornografii. Kiedy nowa polityka dotycząca treści weszła w życie, około dwa tygodnie później - 17 grudnia - stało się jasne, że pojawią się problemy. Po wdrożeniu systemu sztucznej inteligencji, który miał zakazać wszelkiej pornografii na stronie, omyłkowo oznaczył niewinne posty na 455,4 milionach blogów na stronie spośród 168,2 miliarda postów: wazony, czarownice, ryby i cały ten jazz.

Pornografia dla sztucznej inteligencji

Chociaż nie jest jasne, który automatyczny filtr Tumblr użył lub stworzył własny - firma nie odpowiedziała na zapytania w tym temacie - jasne jest, że sieć społecznościowa utknęła między własną polityką a technologią. Na przykład niespójne stanowisko witryny w sprawie „kobiet pokazujących sutki” i artystycznej nagości doprowadziło na przykład do decyzji kontekstowych, które pokazują, że nawet Tumblr nie wie, czego zakazać na swojej platformie. W jaki sposób firma często pracująca może określić, co uważa za nieprzyzwoite?

Po pierwsze, blokowanie ryzykownych treści jest trudne, ponieważ od samego początku trudno jest określić, czym one są. Definicja nieprzyzwoitości to pułapka na niedźwiedzie, która ma ponad sto lat. W 1896 r. Stany Zjednoczone po raz pierwszy przyjęły przepisy regulujące nieprzyzwoitość. W 1964 r. W sprawie Jacobellis przeciwko Ohio, w sprawie tego, czy Ohio mogłoby zakazać wyświetlania filmu Louis Malle, Sąd Najwyższy wydał prawdopodobnie najbardziej znaną obecnie definicję hardkorowej pornografii: jak rozumiem, zostanie to zawarte w dosłownym opisie; i może nigdy nie będę w stanie uczynić tego zrozumiałym”- powiedział sędzia Potter Stewart. „Ale wiem, co to jest, kiedy to widzę, a film związany z tym przypadkiem nie”.

Algorytmy uczenia maszynowego mają ten sam problem. Właśnie z tym problemem stara się rozwiązać Brian Delorge, dyrektor generalny Picnix, firmy sprzedającej wyspecjalizowaną technologię sztucznej inteligencji. Jeden z ich produktów, Iris, jest aplikacją po stronie klienta do wykrywania pornografii, aby „pomagać ludziom”, jak mówi Delorge, „którzy nie chcą porno w swoim życiu”. Zauważa, że szczególnym problemem związanym z pornografią jest to, że może to być wszystko, kilka różnych rzeczy - a obrazy, które nie są pornograficzne, mogą mieć podobne elementy. Obraz imprezy na plaży może być zablokowany nie dlatego, że ma na nim więcej skóry niż zdjęcie w biurze, ale dlatego, że jest na krawędzi. „Dlatego bardzo trudno jest wyszkolić algorytm rozpoznawania obrazu, aby robił wszystko naraz” - mówi DeLorge.„Kiedy definicja staje się trudna dla ludzi, komputer również ma trudności”. Jeśli ludzie nie są zgodni co do tego, czym jest porno, a co nie, czy komputer może mieć nadzieję, że pozna różnicę?

Aby nauczyć sztuczną inteligencję wykrywania pornografii, pierwszą rzeczą, którą musisz zrobić, jest nakarmić ją pornografią. Dużo pornografii. Gdzie mogę to dostać? Cóż, pierwszą rzeczą, jaką ludzie robią, jest pobranie kilku filmów z Pornhub, XVideos, mówi Dan Shapiro, współzałożyciel Lemay.ai, startupu, który tworzy filtry AI dla swoich klientów. „To jedna z tych szarych stref natury prawnej - na przykład, jeśli uczysz się z treści innych osób, czy należą one do Ciebie?”

Po tym, jak programiści pobrali mnóstwo pornografii, wycięli z filmu materiał niepornograficzny, aby upewnić się, że użyty materiał nie blokuje dostawców pizzy. Platformy płacą ludziom, głównie spoza Stanów Zjednoczonych, za oznaczanie takich treści; praca jest nisko płatna i nudna, jak wpisywanie captcha. Po prostu siedzą i zauważają: to jest porno, to jest to. Musisz trochę przefiltrować, bo wszystkie filmy porno mają etykietę. Uczenie się jest lepsze, jeśli używasz nie tylko zdjęć, ale także dużych próbek danych.

Film promocyjny:

„Często zdarza się, że nie wystarczy filtrować porno, ale raczej towarzyszący mu materiał” - mówi Shapiro. „Na przykład fałszywe profile ze zdjęciem i telefonem dziewczyny”. Ma na myśli prostytutki szukające klientów, ale może to być wszystko, co nie jest całkowicie legalne. „To nie jest pornografia, ale tego nie chcesz oglądać na swojej platformie, prawda?” Dobry zautomatyzowany moderator uczy się od milionów - jeśli nie dziesiątek milionów - przykładowych treści, które mogą zaoszczędzić mnóstwo roboczogodzin.

„Można to porównać do różnicy między dzieckiem a osobą dorosłą” - mówi Matt Zeiler, dyrektor generalny i założyciel Clarifai, startupu zajmującego się komputerową wizją, który wykonuje tego rodzaju filtrowanie obrazu dla klientów korporacyjnych. „Mogę powiedzieć na pewno - kilka miesięcy temu mieliśmy dziecko. Nic nie wiedzą o świecie, wszystko jest dla nich nowe”. Musisz pokazać dziecku (algorytm) wiele rzeczy, aby coś zrozumiało. „Miliony przykładów. Ale jako dorośli - kiedy stworzyliśmy tak wiele kontekstu na temat świata i zrozumieliśmy, jak on działa - możemy nauczyć się czegoś nowego na podstawie zaledwie kilku przykładów”. (Tak, uczenie sztucznej inteligencji filtrowania treści dla dorosłych jest jak pokazywanie dziecku dużej ilości pornografii). Firmy takie jak Clarifai obecnie szybko się rozwijają. Mają dobrą bazę danych świata, potrafią odróżnić psy od kotów, ubrane od nagich. Firma Zeilera wykorzystuje swoje modele do trenowania nowych algorytmów dla swoich klientów - ponieważ oryginalny model przetwarzał wiele danych, spersonalizowane wersje wymagałyby tylko nowych zestawów danych do działania.

Jednak algorytmowi trudno jest to naprawić. Dobrze radzi sobie z treściami, które są oczywiście pornograficzne; ale klasyfikator może nieprawidłowo oznaczyć reklamę bielizny jako niedostępną, ponieważ zdjęcie ma więcej skóry niż, powiedzmy, biuro. (W przypadku bikini i bielizny, według Zeilera, jest to bardzo trudne). Oznacza to, że marketerzy powinni w swojej pracy skupić się na tych skrajnych przypadkach, nadając priorytet trudnym do sklasyfikowania modelom.

Co jest najtrudniejsze?

„Anime porno” - mówi Zeiler. „Pierwsza wersja naszego wykrywacza nagości nie wykorzystywała pornografii z kreskówek do celów edukacyjnych”. Wiele razy sztuczna inteligencja myliła się, ponieważ nie rozpoznawała hentai. „Po pracy nad tym dla klienta, wstrzyknęliśmy wiele jego danych do modelu i radykalnie poprawiliśmy dokładność filtru rysunkowego przy jednoczesnym zachowaniu dokładności prawdziwych zdjęć” - mówi Zeiler.

Technologia, której nauczyliśmy się węszyć pornografię, może być również używana do innych celów. Technologie tego systemu są niezwykle elastyczne. To więcej niż cycki anime. Na przykład Jigsaw firmy Alphabet jest szeroko stosowana jako automatyczny moderator komentarzy w gazetach. To oprogramowanie działa podobnie do klasyfikatorów obrazów, z wyjątkiem tego, że sortuje według toksyczności, a nie nagości. (Toksyczność komentarzy tekstowych jest równie trudna do określenia, jak pornografia na zdjęciach). Facebook używa tego rodzaju automatycznego filtrowania do wykrywania wiadomości samobójczych i treści związanych z terroryzmem i próbował wykorzystać tę technologię do wykrywania fałszywych wiadomości na swojej ogromnej platformie.

Wszystko to nadal zależy od ludzkiego nadzoru; lepiej radzimy sobie z niejednoznacznością i niejednoznacznym kontekstem. Zeiler mówi, że nie sądzi, aby jego produkt odebrał komukolwiek pracę. Rozwiązuje problem skalowania internetu. Ludzie nadal będą szkolić sztuczną inteligencję, sortując i oznaczając zawartość, aby sztuczna inteligencja mogła ją rozróżnić.

Oto przyszłość umiaru: dostosowane, gotowe rozwiązania dostarczane firmom, które cały swój biznes uczą coraz bardziej zaawansowanych klasyfikatorów więcej danych. Podobnie jak Stripe i Square oferują gotowe rozwiązania płatnicze dla firm, które same nie chcą ich przetwarzać, startupy takie jak Clarifai, Picnix i Lemay.ai przeprowadzą moderację online.

Dan Shapiro z Lemay.ai ma nadzieję. „Jak w przypadku każdej technologii, wciąż jest w trakcie opracowywania. Więc nie sądzę, żebyśmy się poddali, jeśli zawiedziemy”. Ale czy sztuczna inteligencja będzie kiedykolwiek w stanie działać autonomicznie bez nadzoru człowieka? Niejasny. „Nie ma małego człowieczka w tabakierze, który filtruje każdy zastrzyk” - mówi. „Aby wytrenować algorytm, musisz pobierać dane z każdego miejsca”.

Z drugiej strony Zeiler uważa, że pewnego dnia sztuczna inteligencja sama wszystko moderuje. Ostatecznie liczba ludzkich interwencji zostanie zredukowana do zera lub niewielkiego wysiłku. Stopniowo ludzkie wysiłki zmienią się w coś, czego sztuczna inteligencja nie może teraz zrobić, jak rozumowanie na wysokim poziomie, samoświadomość - wszystko, co ludzie mają.

Rozpoznawanie pornografii jest tego częścią. Identyfikacja jest stosunkowo trywialnym zadaniem dla ludzi, ale znacznie trudniej jest wytrenować algorytm rozpoznawania niuansów. Określenie progu, w jakim filtr oznacza obraz jako pornograficzny lub niepornograficzny, jest również trudnym zadaniem, częściowo matematycznym.

Sztuczna inteligencja jest niedoskonałym zwierciadłem tego, jak postrzegamy świat, podobnie jak pornografia jest odbiciem tego, co dzieje się między ludźmi, gdy są sami. Jest w tym trochę prawdy, ale nie ma pełnego obrazu.

Ilya Khel