Czy Neurony Marzą O Elektrycznych Owcach? Twórca Pierwszych Sieci Neuronowych Opowiedział O Ich Ewolucji I Przyszłości - Alternatywny Widok

2024 Autor: Keith Bush | [email protected]. Ostatnio zmodyfikowany: 2023-12-16 14:39

Jeffrey Hinton jest współtwórcą koncepcji głębokiego uczenia się, zdobywcą nagrody Turing Award 2019 i inżynierem Google. W zeszłym tygodniu, podczas konferencji programistów I / O, Wired przeprowadził z nim wywiad i omówił jego fascynację mózgiem i umiejętność modelowania komputera w oparciu o strukturę neuronową mózgu. Przez długi czas te pomysły uważano za szalone. Ciekawa i zabawna rozmowa na temat świadomości, przyszłych planów Hintona i tego, czy można nauczyć komputerów marzyć.

Co się stanie z sieciami neuronowymi?

Zacznijmy od dni, w których napisałeś swoje pierwsze, bardzo wpływowe artykuły. Wszyscy mówili: „To sprytny pomysł, ale naprawdę nie możemy projektować komputerów w ten sposób”. Wyjaśnij, dlaczego nalegałeś na siebie i dlaczego byłeś tak pewien, że znalazłeś coś ważnego.

Wydawało mi się, że mózg nie może inaczej pracować. Musi pracować, badając siłę połączeń. A jeśli chcesz, aby urządzenie zrobiło coś inteligentnego, masz dwie możliwości: albo je programujesz, albo się uczy. Nikt nie programował ludzi, więc musieliśmy się uczyć. Ta metoda musiała być poprawna.

Wyjaśnij, czym są sieci neuronowe. Wyjaśnij oryginalną koncepcję

Bierzesz stosunkowo proste elementy przetwarzające, które bardzo niejasno przypominają neurony. Mają przychodzące połączenia, każde połączenie ma wagę, a ta waga może się zmieniać podczas treningu. To, co robi neuron, to działania na połączeniach pomnożonych przez wagi, zsumowanie ich, a następnie podjęcie decyzji, czy wysłać dane. Jeśli suma jest wpisana dostatecznie duża, daje wynik. Jeśli kwota jest ujemna, nic nie wysyła. To wszystko. Wszystko, co musisz zrobić, to połączyć chmurę tych neuronów z ciężarkami i dowiedzieć się, jak zmienić te wagi, a wtedy zrobią wszystko. Pytanie tylko, jak zmienisz wagi.

Film promocyjny:

Kiedy zdałeś sobie sprawę, że jest to przybliżona reprezentacja tego, jak działa mózg?

O tak, wszystko było pierwotnie przeznaczone. Zaprojektowany tak, aby przypominał pracę mózgu.

Więc w pewnym momencie swojej kariery zacząłeś rozumieć, jak działa mózg. Może miałeś dwanaście lat, może dwadzieścia pięć. Kiedy zdecydowałeś się modelować komputery jak mózgi?

Tak, natychmiast. O to właśnie chodziło. Cały ten pomysł polegał na stworzeniu urządzenia uczącego się, które uczy się jak mózg, zgodnie z wyobrażeniami ludzi o tym, jak mózg się uczy, zmieniając siłę połączeń. I to nie był mój pomysł, Turing miał ten sam pomysł. Chociaż Turing wymyślił wiele podstaw standardowej informatyki, uważał, że mózg jest zdezorganizowanym urządzeniem z przypadkowymi ciężarami i wykorzystywał uczenie się przez wzmacnianie do zmiany połączeń, więc mógł się nauczyć wszystkiego. Wierzył, że to najlepsza droga do inteligencji.

Podążałeś za pomysłem Turinga, że najlepszym sposobem na zbudowanie maszyny jest zaprojektowanie jej na wzór ludzkiego mózgu. Tak działa ludzki mózg, stwórzmy więc podobną maszynę

Tak, nie tylko Turing tak uważał. Wielu tak uważało.

Kiedy nadeszły mroczne czasy? Kiedy to się stało, że inni ludzie, którzy nad tym pracowali i wierzyli, że pomysł Turinga jest słuszny, zaczęli się wycofywać, a ty nadal naginałeś swoją linię?

Zawsze była garstka ludzi, którzy wierzyli bez względu na wszystko, zwłaszcza w dziedzinie psychologii. Ale wśród informatyków, jak sądzę, w latach 90. zdarzało się, że zbiory danych były dość małe, a komputery nie były tak szybkie. W przypadku małych zbiorów danych inne metody, takie jak maszyny wektorów nośnych, działały nieco lepiej. Nie byli tak zdezorientowani hałasem. Było to więc smutne, ponieważ w latach 80-tych opracowaliśmy metodę propagacji wstecznej, która jest bardzo ważna dla sieci neuronowych. Myśleliśmy, że wszystko rozwiąże. Byli zdziwieni, że nic nie zdecydował. Pytanie było naprawdę na skalę, ale wtedy tego nie wiedzieliśmy.

Dlaczego myślisz, że to nie działa?

Myśleliśmy, że to nie zadziałało, ponieważ nie mieliśmy do końca poprawnych algorytmów i niezupełnie poprawnych funkcji celu. Przez długi czas myślałem, że dzieje się tak dlatego, że próbowaliśmy przeprowadzić uczenie nadzorowane, kiedy oznaczałeś dane, i musieliśmy robić uczenie bez nadzoru, ucząc się z danych nieoznakowanych. Okazało się, że pytanie dotyczyło głównie skali.

To interesujące. Problem polegał na tym, że nie masz wystarczających danych. Myślałeś, że masz odpowiednią ilość danych, ale nieprawidłowo je otagowałeś. Więc po prostu źle zdiagnozowałeś problem?

Pomyślałem, że pomyłka polega na tym, że w ogóle używamy etykiet. Większość twoich treningów odbywa się bez użycia żadnych etykiet, po prostu próbujesz modelować strukturę w danych. Właściwie nadal tak uważam. Myślę, że skoro komputery są coraz szybsze, jeśli komputer jest wystarczająco szybki, to dla dowolnego zbioru danych o danej wielkości lepiej trenować bez nadzoru. Po ukończeniu uczenia się bez nadzoru możesz uczyć się z mniejszą liczbą tagów.

Więc w latach 90. kontynuujesz swoje badania, jesteś na uczelni, nadal publikujesz, ale nie rozwiązujesz dużych problemów. Czy zdarzyło Ci się kiedyś powiedzieć: „Wiesz co, wystarczy. Czy spróbuję zrobić coś innego”? A może po prostu powiedziałeś sobie, że będziesz kontynuował głębokie uczenie się [czyli koncepcję głębokiego uczenia się, głębokiego uczenia sieci neuronowych

Tak. Coś takiego powinno działać. To znaczy, połączenia w mózgu uczą się w jakiś sposób, musimy tylko dowiedzieć się, jak to zrobić. Prawdopodobnie istnieje wiele różnych sposobów wzmacniania połączeń w procesie uczenia się; mózg używa jednego z nich. Mogą istnieć inne sposoby. Ale zdecydowanie potrzebujesz czegoś, co wzmocni te połączenia podczas nauki. Nigdy w to nie wątpiłem.

Nigdy w to nie wątpiłeś. Kiedy wydawało się, że to działa?

Jednym z największych rozczarowań lat 80. było to, że jeśli stworzyliśmy sieci z wieloma ukrytymi warstwami, nie mogliśmy ich wytrenować. Nie jest to do końca prawdą, ponieważ można trenować stosunkowo proste procesy, takie jak pisanie ręczne. Ale nie wiedzieliśmy, jak wytrenować większość głębokich sieci neuronowych. Około 2005 roku wymyśliłem sposób na trenowanie głębokich sieci bez nadzoru. Wprowadzasz dane, powiedzmy, piksele i trenujesz kilka detektorów szczegółów, co właśnie dobrze wyjaśniło, dlaczego piksele są takie, jakie są. Następnie podajesz tym detektorom części dane i trenujesz inny zestaw detektorów części, abyśmy mogli wyjaśnić, dlaczego określone detektory części mają określone korelacje. Kontynuujesz trening warstwa po warstwie. Ale najciekawsza była rzeczktóry można rozłożyć matematycznie i udowodnić, że za każdym razem, gdy trenujesz nową warstwę, niekoniecznie będziesz ulepszać model danych, ale będziesz mieć do czynienia z zakresem tego, jak dobry jest twój model. A zakres ten stawał się lepszy z każdą dodaną warstwą.

Co masz na myśli mówiąc o tym, jak dobry jest Twój model?

Gdy już masz model, możesz zadać pytanie „Jak niezwykłe są te dane w tym modelu?” Pokazujesz jej dane i zadajesz pytanie: „Czy znalazłeś to wszystko zgodnie z oczekiwaniami, czy jest to niezwykłe?” I można to zmierzyć. I chciałem uzyskać model, dobry model, który przegląda dane i mówi: „Tak, tak. Wiedziałam. Nie jest to zaskakujące”. Zawsze bardzo trudno jest dokładnie obliczyć, jak niezwykły model znajdzie dane. Ale możesz obliczyć zakres tego. Można powiedzieć, że model uzna te dane za mniej niezwykłe niż te. Można też wykazać, że w miarę dodawania nowych warstw do detektorów szczegółów, tworzenia modelu, a z każdą warstwą dodawaną w miarę znajdowania danych, zakres zrozumienia tego, jak niezwykłe są dane, staje się lepszy.

Więc około 2005 roku dokonaliście tego matematycznego przełomu. Kiedy zacząłeś otrzymywać właściwe odpowiedzi? Z jakimi danymi pracowałeś? Twój pierwszy przełom dotyczył danych mowy, prawda?

To były tylko odręczne liczby. Bardzo prosty. Mniej więcej w tym samym czasie rozpoczął się rozwój GPU (Graphics Processing Units). A ludzie, którzy zajmowali się sieciami neuronowymi, zaczęli używać GPU w 2007 roku. Miałem bardzo dobrego ucznia, który zaczął używać GPU do wyszukiwania dróg na zdjęciach lotniczych. Napisał kod, który następnie został przyjęty przez innych uczniów przy użyciu GPU do rozpoznawania fonemów w mowie. Wykorzystali ten pomysł przedtreningowy. Po zakończeniu treningu wstępnego po prostu zawiesili tagi na górze i wykorzystali propagację wsteczną. Okazało się, że można stworzyć bardzo głęboką sieć, która została wcześniej w ten sposób przeszkolona. A potem można zastosować propagację wsteczną i faktycznie zadziałało. W rozpoznawaniu mowy działało świetnie. Najpierw jednaknie było dużo lepiej.

Czy było lepsze niż dostępne na rynku rozpoznawanie mowy? Pomijane przez najlepsze prace naukowe na temat rozpoznawania mowy?

W przypadku stosunkowo małego zbioru danych o nazwie TIMIT był on nieco lepszy niż najlepsza praca naukowa. IBM również wykonał dużo pracy.

Ludzie szybko zdali sobie sprawę, że wszystko to - ponieważ omija standardowe modele, które były opracowywane przez 30 lat - działałoby dobrze, gdyby zostało trochę opracowane. Moi absolwenci przeszli do Microsoft, IBM i Google, a Google bardzo szybko stworzyło działający aparat do rozpoznawania mowy. Do 2012 roku ta praca, która została wykonana w 2009 roku, dotarła do Androida. Android nagle znacznie lepiej radzi sobie z rozpoznawaniem mowy.

Opowiedz mi o chwili, w której wy, którzy przechowujecie te pomysły od 40 lat, publikujecie na ten temat od 20 lat, nagle omijacie swoich kolegów. Jakie to uczucie?

Cóż, wtedy przechowywałem te pomysły tylko przez 30 lat!

Racja, racja

Było wspaniałe uczucie, że to wszystko w końcu przerodziło się w prawdziwy problem.

Czy pamiętasz, kiedy po raz pierwszy otrzymałeś dane wskazujące na to?

Nie.

W porządku. Więc masz wrażenie, że działa to z rozpoznawaniem mowy. Kiedy zacząłeś stosować sieci neuronowe do innych problemów?

Na początku zaczęliśmy je stosować do wielu innych problemów. George Dahl, z którym początkowo pracowaliśmy nad rozpoznawaniem mowy, wykorzystał je do przewidzenia, czy cząsteczka może się z czymś związać i stać się dobrym lekarstwem. I był konkurs. Po prostu zastosował naszą standardową technologię, zbudowaną do rozpoznawania mowy, do przewidywania aktywności narkotyków i wygrał konkurs. To był znak, że robimy coś bardzo wszechstronnego. Potem pojawił się student, który powiedział: „Wiesz, Jeff, to będzie działać z rozpoznawaniem obrazu, a Fei-Fei Li stworzył do tego odpowiedni zbiór danych. Jest konkurs publiczny, zróbmy coś”.

Uzyskaliśmy wyniki znacznie przewyższające standardowe widzenie komputerowe. Był rok 2012.

Oznacza to, że w tych trzech obszarach osiągnąłeś najlepsze wyniki: modelowanie chemii, mowy, głosu. Gdzie się nie udało?

Czy rozumiesz, że niepowodzenia są tymczasowe?

Cóż, co oddziela obszary, w których wszystko działa najszybciej, i obszary, w których trwa to najdłużej? Wygląda na to, że przetwarzanie wizualne, rozpoznawanie mowy i coś w rodzaju podstawowych ludzkich czynności związanych z percepcją zmysłową są uważane za pierwsze bariery do pokonania, prawda?

Tak i nie, ponieważ są inne rzeczy, które robimy dobrze - te same zdolności motoryczne. Jesteśmy bardzo dobrzy w kontroli motorycznej. Nasze mózgi są do tego zdecydowanie przygotowane. Dopiero teraz sieci neuronowe zaczynają konkurować w tym zakresie z najlepszymi innymi technologiami. W końcu wygrają, ale teraz dopiero zaczynają wygrywać.

Myślę, że myślenie abstrakcyjne to ostatnia rzecz, której się uczymy. Myślę, że będą jedną z ostatnich rzeczy, których te sieci neuronowe nauczą się robić.

Dlatego ciągle powtarzasz, że sieci neuronowe ostatecznie dominują wszędzie

Cóż, jesteśmy sieciami neuronowymi. Wszystko, co możemy, mogą.

To prawda, ale ludzki mózg jest daleki od najbardziej wydajnej maszyny komputerowej, jaką kiedykolwiek zbudowano

Absolutnie nie.

Zdecydowanie nie mój ludzki mózg! Czy istnieje sposób na modelowanie maszyn, które są znacznie wydajniejsze niż ludzki mózg?

Filozoficznie, nie mam zastrzeżeń co do pomysłu, że może istnieć zupełnie inny sposób na zrobienie tego wszystkiego. Może jeśli zaczniesz od logiki, spróbujesz zautomatyzować logikę, wymyślisz jakieś wymyślne twierdzenie, rozumowanie, a potem zdecydujesz, że to dzięki rozumowaniu dojdziesz do percepcji wzrokowej, może się zdarzyć, że to podejście zwycięży. Ale jeszcze nie teraz. Nie mam żadnych filozoficznych zastrzeżeń co do takiego zwycięstwa. Po prostu wiemy, że mózg jest do tego zdolny.

Ale są też rzeczy, których nasz mózg nie może zrobić dobrze. Czy to oznacza, że sieci neuronowe też nie będą w stanie tego zrobić dobrze?

Całkiem możliwe, że tak.

Jest jeszcze jeden problem, a mianowicie to, że nie do końca rozumiemy, jak działają sieci neuronowe, prawda?

Tak, tak naprawdę nie rozumiemy, jak działają.

Nie rozumiemy, jak działają odgórne sieci neuronowe. Jest to podstawowy element działania sieci neuronowych, którego nie rozumiemy. Wyjaśnij to, a potem pozwól mi zadać następne pytanie: jeśli wiemy, jak to wszystko działa, jak to wszystko działa?

Kiedy spojrzymy na nowoczesne komputerowe systemy wizyjne, większość z nich jest w większości wybiegająca w przyszłość; nie używają połączeń zwrotnych. W nowoczesnych komputerowych systemach wizyjnych jest jeszcze coś, co jest bardzo podatne na błędy kontradyktoryjne. Możesz nieznacznie zmienić kilka pikseli, a to, co było obrazem pandy i nadal wygląda dokładnie jak panda, nagle stanie się strusiem w twoim rozumieniu sieci neuronowej. Oczywiście sposób zastępowania pikseli jest przemyślany w taki sposób, aby skłonić sieć neuronową do myślenia o strusiu. Ale chodzi o to, że nadal jest to dla ciebie panda.

Początkowo myśleliśmy, że wszystko działa świetnie. Ale potem, w obliczu faktu, że patrzyli na pandę i byli pewni, że to struś, zaczęliśmy się martwić. Myślę, że część problemu polega na tym, że nie próbują rekonstruować z widoków wysokiego poziomu. Próbują uczyć się w izolacji, gdzie uczą się tylko warstwy detektorów detali, a głównym celem jest zmiana wagi, aby lepiej znaleźć właściwą odpowiedź. Niedawno odkryliśmy, lub Nick Frost odkrył w Toronto, że dodanie rekonstrukcji zwiększa opór przeciwników. Myślę, że w ludzkim widzeniu rekonstrukcja służy do nauki. A ponieważ tak dużo się uczymy podczas rekonstrukcji, jesteśmy dużo bardziej odporni na ataki ze strony przeciwników.

Uważasz, że komunikacja zstępująca w sieci neuronowej pozwala przetestować, jak coś jest rekonstruowane. Sprawdzasz i upewniasz się, że to panda, a nie struś

Myślę, że to ważne, tak.

Ale naukowcy zajmujący się mózgiem nie do końca się z tym zgadzają?

Naukowcy zajmujący się mózgiem nie twierdzą, że jeśli masz dwa regiony kory na ścieżce percepcji, zawsze będą istnieć odwrotne połączenia. Spierają się z tym, do czego to służy. Może być potrzebny do uwagi, nauki lub rekonstrukcji. Albo dla wszystkich trzech.

Dlatego nie wiemy, czym jest opinia. Czy budujesz swoje nowe sieci neuronowe wychodząc z założenia, że … nie, nawet nie - budujesz sprzężenie zwrotne, ponieważ jest to potrzebne do rekonstrukcji w twoich sieciach neuronowych, chociaż tak naprawdę nie rozumiesz, jak działa mózg?

Tak.

Czy to nie sztuczka? To znaczy, jeśli próbujesz zrobić coś takiego jak mózg, ale nie jesteś pewien, czy mózg to robi?

Nie całkiem. Nie zajmuję się neuronauką obliczeniową. Nie próbuję modelować, jak działa mózg. Patrzę na mózg i mówię: „To działa, a jeśli chcemy zrobić coś innego, co działa, musimy patrzeć i czerpać z tego inspirację”. Inspirują nas neurony, a nie budowanie modelu neuronowego. Dlatego cały model neuronów, którego używamy, jest inspirowany faktem, że neurony mają wiele połączeń i zmieniają wagi.

To interesujące. Gdybym był informatykiem pracującym nad sieciami neuronowymi i chcąc ominąć Jeffa Hintona, jedną z opcji byłoby zbudowanie komunikacji w dół i oparcie jej na innych modelach nauki o mózgu. Oparte na treningu, a nie rekonstrukcji

Gdyby były lepsze modele, wygrałbyś. Tak.

To bardzo, bardzo interesujące. Porozmawiajmy o bardziej ogólnym temacie. Zatem sieci neuronowe mogą rozwiązać wszystkie możliwe problemy. Czy w ludzkim mózgu są zagadki, których sieci neuronowe nie mogą lub nie mogą rozwiązać? Na przykład emocje

Nie.

Więc miłość może zostać zrekonstruowana za pomocą sieci neuronowej? Świadomość można zrekonstruować?

Absolutnie. Kiedy już zrozumiesz, co to oznacza. Jesteśmy sieciami neuronowymi, prawda? Świadomość to dla mnie szczególnie interesujący temat. Ale … ludzie tak naprawdę nie wiedzą, co mają na myśli przez to słowo. Istnieje wiele różnych definicji. Myślę, że to dość naukowy termin. Dlatego jeśli 100 lat temu pytałeś ludzi: czym jest życie? Odpowiedzieliby: „Cóż, żywe istoty mają siłę życiową, a kiedy umierają, siła życiowa je opuszcza. To jest różnica między żywymi a umarłymi, albo masz witalność, albo nie. Teraz nie mamy siły życiowej, myślimy, że ta koncepcja pojawiła się przed nauką. A kiedy zaczniesz trochę rozumieć biochemię i biologię molekularną, nie potrzebujesz już siły życiowej, zrozumiesz, jak to wszystko naprawdę działa. Myślę, że to samo stanie się ze świadomością. Myślę,świadomość jest próbą wyjaśnienia zjawisk psychicznych za pomocą istoty. I ta esencja nie jest potrzebna. Kiedy już to wyjaśnisz, możesz wyjaśnić, w jaki sposób robimy wszystko, co czyni ludzi świadomymi istotami, wyjaśnić różne znaczenia świadomości bez angażowania żadnych specjalnych bytów.

Okazuje się, że nie ma emocji, których nie dałoby się stworzyć? Nie ma myśli, której nie można stworzyć? Nie ma niczego, do czego ludzki umysł byłby zdolny, czego teoretycznie nie mógłby odtworzyć w pełni funkcjonująca sieć neuronowa, skoro już naprawdę zrozumiemy, jak działa mózg?

John Lennon zaśpiewał coś podobnego w jednej ze swoich piosenek.

Czy jesteś tego w 100% pewien?

Nie, jestem Bayesianem, więc jestem pewien na 99,9%.

Dobrze, ile to jest 0,01%?

Cóż, moglibyśmy na przykład wszyscy być częścią większej symulacji.

Słusznie. Czego więc uczymy się o mózgu z pracy na komputerach?

Cóż, myślę, że z tego, czego nauczyliśmy się przez ostatnie 10 lat, jest interesujące, że jeśli weźmie się system z miliardami parametrów i funkcją celu - na przykład, aby wypełnić lukę w linii słów - działa lepiej niż powinien. Będzie działać znacznie lepiej, niż można by się spodziewać. Możesz pomyśleć, a wiele osób zajmujących się tradycyjnymi badaniami nad sztuczną inteligencją pomyślałoby, że można wziąć system z miliardem parametrów, uruchomić go z przypadkowymi wartościami, zmierzyć gradient funkcji celu, a następnie dostosować go, aby ulepszyć funkcję celu. Możesz pomyśleć, że beznadziejny algorytm nieuchronnie utknie. Ale nie, okazuje się, że to naprawdę dobry algorytm. Im większa skala, tym lepiej działa. A to odkrycie było zasadniczo empiryczne. Oczywiście za tym wszystkim kryła się jakaś teoria, ale odkrycie było empiryczne. I teraz,odkąd to odkryliśmy, wydaje się bardziej prawdopodobne, że mózg oblicza gradient jakiejś funkcji celu i aktualizuje wagi i siłę połączenia synaptycznego, aby nadążyć za tym gradientem. Musimy tylko dowiedzieć się, czym jest ta funkcja docelowa i jak się pogarsza.

Ale nie zrozumieliśmy tego na przykładzie mózgu? Nie rozumiesz aktualizacji salda?

To była teoria. Dawno temu ludzie myśleli, że to możliwe. Ale w tle zawsze byli informatycy, którzy mówili: „Tak, ale pomysł, że wszystko jest przypadkowe, a uczenie się wynika z opadania gradientu, nie zadziała z miliardem parametrów, musisz połączyć dużą wiedzę”. Teraz wiemy, że tak nie jest. Wystarczy wpisać losowe parametry i dowiedzieć się wszystkiego.

Zanurzmy się trochę głębiej. W miarę jak będziemy się coraz więcej uczyć, prawdopodobnie będziemy nadal uczyć się coraz więcej o tym, jak działa ludzki mózg, przeprowadzając masowe testy modeli opartych na naszym zrozumieniu funkcji mózgu. Kiedy lepiej to wszystko zrozumiemy, czy nastąpi moment, w którym zasadniczo przeprojektujemy nasze mózgi, aby stały się znacznie wydajniejszymi maszynami?

Jeśli naprawdę rozumiemy, co się dzieje, możemy ulepszyć niektóre rzeczy, takie jak edukacja. Myślę, że się poprawimy. Byłoby bardzo dziwne, gdybyśmy w końcu zrozumieli, co dzieje się w mózgu, w jaki sposób się uczy, i nie dostosowują się, by uczyć się lepiej.

Jak myślisz, w jaki sposób za kilka lat wykorzystamy to, czego nauczyliśmy się o mózgu i jak działa głębokie uczenie się, aby zmienić edukację? Jak zmieniłbyś zajęcia?

Nie jestem pewien, czy za kilka lat wiele się nauczymy. Myślę, że zmiana edukacji zajmie więcej czasu. Ale mówiąc o tym, [cyfrowi] asystenci stają się całkiem sprytni. A kiedy asystenci rozumieją rozmowy, mogą rozmawiać z dziećmi i uczyć je.

Teoretycznie, jeśli lepiej zrozumiemy mózg, możemy zaprogramować pomocników, aby lepiej rozmawiali z dziećmi w oparciu o to, czego się już nauczyły

Tak, ale nie myślałem o tym dużo. Robię coś innego. Ale wszystko to wydaje się dość podobne do prawdy.

Czy możemy zrozumieć, jak działają sny?

Tak, bardzo interesują mnie sny. Jestem tak zainteresowany, że mam co najmniej cztery różne teorie snów.

Opowiedz nam o nich - o pierwszym, drugim, trzecim, czwartym

Dawno temu istniał taki rodzaj rzeczy zwany sieciami Hopfielda i badali oni wspomnienia jako lokalne atraktory. Hopfield odkrył, że jeśli spróbujesz umieścić zbyt wiele wspomnień, zostaną zepsute. Wezmą dwa lokalne atraktory i połączą je w jeden atraktor gdzieś w połowie drogi między nimi.

Potem przyszli Francis Crick i Graham Mitchison i powiedzieli, że możemy pozbyć się tych fałszywych upadków, ucząc się (to znaczy zapominając, czego się nauczyliśmy). Wyłączamy wprowadzanie danych, ustawiamy sieć neuronową w stan losowy, pozwalamy jej się uspokoić, mówimy, że jest zła, zmieniamy połączenia, żeby nie wpadła w ten stan, a tym samym możemy zmusić sieć do przechowywania większej ilości pamięci.

Potem Terry Seinowski i ja weszliśmy i powiedzieliśmy: „Słuchaj, jeśli mamy nie tylko neurony przechowujące wspomnienia, ale także kilka innych neuronów, czy możemy znaleźć algorytm, który wykorzystuje wszystkie te neurony do przywoływania wspomnień?” … W rezultacie stworzyliśmy algorytm uczenia maszynowego Boltzmanna. A algorytm uczenia maszynowego Boltzmanna miał niezwykle interesującą właściwość: pokazuję dane i to jakby przechodzi przez resztę jednostek, aż osiągnie bardzo szczęśliwy stan, po czym zwiększa siłę wszystkich połączeń, opierając się na tym, że dwie jednostki są aktywne w tym samym czasie.

Powinieneś także mieć fazę, w której wyłączasz wejście, pozwalasz algorytmowi „szeleścić” i wprowadzasz go w stan, w którym jest szczęśliwy, aby fantazjował, a gdy tylko ma fantazję, mówisz: „Weź wszystkie pary neuronów które są aktywne i zmniejszają siłę połączeń”.

Wyjaśnię ci algorytm jako procedurę. Ale w rzeczywistości ten algorytm jest wytworem matematyki i pytania: "Jak należy zmienić te łańcuchy połączeń, aby ta sieć neuronowa z tymi wszystkimi ukrytymi jednostkami danych nie wydawała się zaskakująca?" Powinna też istnieć inna faza, którą nazywamy fazą ujemną, kiedy sieć działa bez wprowadzania danych i oducza się, bez względu na stan, w jakim ją wprowadzisz.

Każdej nocy śnimy przez wiele godzin. A jeśli nagle się obudzisz, możesz powiedzieć, że właśnie śniłeś, ponieważ sen jest przechowywany w pamięci krótkotrwałej. Wiemy, że sny widzimy przez wiele godzin, ale rano po przebudzeniu pamiętamy tylko ostatni sen, a innych nie pamiętamy, co jest bardzo udane, bo można je pomylić z rzeczywistością. Dlaczego więc w ogóle nie pamiętamy naszych snów? Według Cricka taki jest sens snów: oduczyć się tych rzeczy. Uczysz się na odwrót.

Terry Seinovski i ja wykazaliśmy, że jest to w rzeczywistości procedura uczenia się z maksymalnym prawdopodobieństwem dla maszyn Boltzmanna. To pierwsza teoria o snach.

Chcę przejść do innych twoich teorii. Ale moje pytanie brzmi: czy byłeś w stanie wyszkolić którykolwiek ze swoich algorytmów uczenia głębokiego, aby rzeczywiście śnić?

Jednymi z pierwszych algorytmów, które mogły nauczyć się pracować z ukrytymi jednostkami, były maszyny Boltzmanna. Były wyjątkowo nieskuteczne. Ale później znalazłem sposób na pracę z przybliżeniami, który okazał się skuteczny. I to faktycznie dało impuls do wznowienia pracy z głębokim uczeniem się. To były rzeczy, które trenowały jedną warstwę detektorów cech na raz. I to była skuteczna forma restrykcyjnej machiny Boltzmanna. I tak zrobiła tego rodzaju odwrotną naukę. Ale zamiast zasnąć, mogła trochę fantazjować po każdym znaku danych.

Okej, więc androidy tak naprawdę marzą o elektrycznych owcach. Przejdźmy do teorii drugiej, trzeciej i czwartej

Teoria druga została nazwana algorytmem budzenia uśpienia. Musisz wytrenować model generatywny. Masz pomysł na stworzenie modelu, który może generować dane, ma warstwy detektorów cech i aktywuje wyższe i niższe warstwy itd., Aż do aktywacji pikseli - zasadniczo tworząc obraz. Ale chciałbyś ją nauczyć czegoś innego. Chciałbyś, żeby rozpoznał dane.

Musisz więc stworzyć algorytm z dwoma fazami. W fazie przebudzenia dane przychodzą, próbuje je rozpoznać i zamiast badać połączenia, których używa do rozpoznania, bada połączenia generatywne. Dane przychodzą, aktywuję ukryte jednostki. A potem próbuję nauczyć te ukryte jednostki odzyskać te dane. Uczy się rekonstruować w każdej warstwie. Ale pytanie brzmi, jak nauczyć się bezpośrednich połączeń? Pomysł jest taki, że gdybyś znał połączenia bezpośrednie, mógłbyś nauczyć się połączeń odwrotnych, ponieważ mógłbyś nauczyć się inżynierii wstecznej.

Teraz okazuje się również, że jeśli używasz sprzężeń odwrotnych, możesz również nauczyć się sprzężeń bezpośrednich, ponieważ możesz po prostu zacząć od góry i wygenerować dane. A ponieważ generujesz dane, znasz stany wszystkich ukrytych warstw i możesz badać bezpośrednie połączenia, aby przywrócić te stany. I oto, co się dzieje: jeśli zaczniesz od przypadkowych połączeń i spróbujesz używać obu faz naprzemiennie, odniesiesz sukces. Aby działało dobrze, musisz wypróbować różne opcje, ale zadziała.

Ok, a co z pozostałymi dwiema teoriami? Zostało nam tylko osiem minut, myślę, że nie będę miał czasu o wszystko pytać

Daj mi jeszcze godzinę, a opowiem ci o pozostałych dwóch.

Porozmawiajmy o tym, co dalej. Dokąd zmierzają twoje badania? Jakie problemy próbujesz teraz rozwiązać?

Ostatecznie będziesz musiał popracować nad czymś, czego praca jeszcze się nie zakończyła. Myślę, że mogę pracować nad czymś, czego nigdy nie skończę - zwanym kapsułkami, teorią o tym, jak dokonuje się percepcji wzrokowej za pomocą rekonstrukcji i jak informacje są kierowane we właściwe miejsca. Dwa główne czynniki motywujące to to, że w standardowych sieciach neuronowych informacja, aktywność w warstwie jest po prostu gdzieś automatycznie wysyłana, a Ty nie decydujesz, gdzie ją wysłać. Ideą kapsuł było podejmowanie decyzji o tym, gdzie wysłać informacje.

Teraz, kiedy zacząłem pracować nad kapsułkami, bardzo mądrzy ludzie w Google wynaleźli transformatory, które robią to samo. Decydują, gdzie wysłać informacje, a to duża wygrana.

W przyszłym roku wrócimy, aby porozmawiać o teoriach snów numer trzy i cztery.

Ilya Khel