Sieci Neuronowe Nauczyły Się Czytać Myśli W Czasie Rzeczywistym. Co? Nie! - Alternatywny Widok

Sieci Neuronowe Nauczyły Się Czytać Myśli W Czasie Rzeczywistym. Co? Nie! - Alternatywny Widok
Sieci Neuronowe Nauczyły Się Czytać Myśli W Czasie Rzeczywistym. Co? Nie! - Alternatywny Widok

Wideo: Sieci Neuronowe Nauczyły Się Czytać Myśli W Czasie Rzeczywistym. Co? Nie! - Alternatywny Widok

Wideo: Sieci Neuronowe Nauczyły Się Czytać Myśli W Czasie Rzeczywistym. Co? Nie! - Alternatywny Widok
Wideo: #4 O co chodzi z tą czarną skrzynką? - sztuczne sieci neuronowe i tajemnice ludzkiego umysłu 2024, Może
Anonim

Kilka dni temu portal bioRxiv.org preprint opublikował prace rosyjskich badaczy z Moskiewskiego Instytutu Fizyki i Technologii oraz firm Neurobotics i Neuroassistive Technologies, które zajmują się tworzeniem interfejsów neurokomputerowych. Artykuł dowodzi, że naukowcom i programistom udało się nauczyć algorytmu w czasie rzeczywistym do rekonstrukcji wideo oglądanego przez osobę za pomocą sygnałów EEG. Brzmi naprawdę fajnie i interesująco - prawie jak czytanie w myślach. W rzeczywistości wszystko oczywiście nie jest takie proste: komputery nie nauczyły się czytać myśli. Krótko mówiąc, komputer nauczył się na podstawie zapisu EEG określić, który obraz pięciu różnych wcześniej znanych klas badany widział. O tym, jak zbudowano eksperyment, jakie zadania postawili naukowcy i dlaczego czytanie w myślach prawdopodobnie nie zostanie zrealizowane w najbliższej przyszłości, opowiadamy na naszym blogu.

Image
Image

Ogólnie rzecz biorąc, pomysł odczytywania sygnału elektrycznego z mózgu i odszyfrowania go, aby zobaczyć, co dana osoba myśli lub robi w danym momencie, biorąc pod uwagę tempo postępu technologicznego, nie wydaje się taki trudny. Oto sygnał, a co oznacza ten sygnał: dodaj dwa i dwa, wytrenuj klasyfikator i uzyskaj wynik, którego potrzebujemy.

Rezultatem jest to, co futuryści i ignoranci nazwaliby „czytaniem w myślach”. I wydaje się, że taka technologia mogłaby się znaleźć w wielu zastosowaniach: od doskonałych interfejsów neurokomputerowych, które pozwalają sterować inteligentnymi protezami, po stworzenie systemu, który w końcu powie Ci, co myśli Twój kot.

W rzeczywistości oczywiście wszystko nie jest wcale takie proste, a pomysł stworzenia takiego algorytmu niemal natychmiast załamuje się na głównej przeszkodzie: mamy do czynienia z mózgiem. Mózg to bardzo złożona rzecz: ma ponad 80 miliardów neuronów, a połączeń między nimi jest kilka tysięcy razy więcej.

Nawet dla laika jest jasne: to zbyt wiele, abyśmy mogli zrozumieć, za co odpowiedzialna jest każda komórka i jej zespół. Naukowcy nie odszyfrowali jeszcze ludzkiego konektomu - nawet jeśli próbują to zrobić ze względnym sukcesem.

Powstaje logiczne pytanie: czy w ogóle konieczne jest zrozumienie funkcji każdego neuronu, aby dokładnie przedstawić to, co dzieje się w mózgu? Na przykład, czy naprawdę brakuje map funkcjonalnych?

Właściwie odpowiedź na to pytanie powinna brzmieć „tak”, ale nawet tutaj nie jest to takie proste. Gdyby ludzkość polegała na dekodowaniu konektomu jako jedynego klucza do odkrycia tajemnicy mózgu, bylibyśmy dziś bardzo blisko. Jednak wiemy coś o tym, jak działa nasz mózg i oczywiście możemy z powodzeniem go używać.

Film promocyjny:

Jednym z najjaśniejszych i najbardziej oczywistych przykładów wykorzystania zgromadzonej przez naukowców wiedzy o pracy mózgu są oczywiście neurointerfejsy. Ogólnie rzecz biorąc, obecnie naprawdę istnieją technologie, które pozwalają odczytywać aktywność mózgu i wykorzystywać ją do sterowania na przykład kursorem myszy komputerowej czy nawet ruchami protezy.

Istnieją dwa sposoby na efektywne działanie interfejsu neuronowego. Pierwsza metoda to potencjały wywołane: przyglądamy się krzywej aktywności elektrycznej pewnych części mózgu i wybieramy na niej te zmiany w sygnale, które, jak wiadomo, pojawiają się w określonym momencie po prezentacji bodźca.

Drugim sposobem nie jest wcale poleganie na stymulacji, ale użycie wyobraźni osoby do wygenerowania sygnału elektrycznego, który można odczytać. Na przykład osoba może zostać poproszona o wizualizację sposobu poruszania nogą lub ramieniem.

Obie metody mają istotne wady. Pierwszą przeszkadza fakt, że liczba znanych nam wiarygodnie wywołanych potencjałów nie jest tak duża: ich liczba nie może dokładnie pokryć wszystkich możliwych czynności wykonywanych przez człowieka. Wadą drugiego jest to, że do osiągnięcia przynajmniej pewnego efektu wymagany jest długi trening.

Autorzy przedruku postanowili połączyć oba podejścia do tworzenia interfejsów neurokomputerowych, słusznie wierząc, że uchroni to obie metody przed znacznymi ograniczeniami i pozwoli na opracowanie nowej i najbardziej efektywnej metody pracy z neurointerfejsami dzisiaj.

Założono również, że metoda ta będzie zamknięta (zamknięta pętla), czyli wynik uzyskany za jej pomocą wpłynie z kolei na działanie algorytmu. Ale o tym później.

Na samym początku algorytm rozbija wszystkie obrazy na oddzielne składowe-znaki, rozmieszczone w przestrzeni wektorowej, za pomocą których można je następnie skorelować z określonymi sygnałami mózgowymi zarejestrowanymi za pomocą EEG.

Na tym początkowym etapie stosowany jest klasyfikator binarny - z grubsza mówiąc, same „dwa i dwa”: mając wystarczająco czysty sygnał (zapis EEG został oczyszczony z artefaktów motorycznych), można wybrać jeden lub drugi z dokładnością większą niż trafienie losowe.

W swoich eksperymentach naukowcy wykorzystali filmy przedstawiające obiekty pięciu klas: obrazy ludzi, wodospady, abstrakcyjne kształty geometryczne, sporty ekstremalne i samochody Goldberg. Z jednej strony taki zestaw wydaje się dziwny, ale z drugiej wydaje się, że wszystkie te obiekty bardzo się od siebie różnią. Czy rzeczywiście jest coś wspólnego między ludzkimi twarzami a abstrakcyjnymi geometrycznymi kształtami?

Tymczasem, według klasyfikatora binarnego, abstrakcyjne postacie i ludzkie twarze są nie do odróżnienia od siebie: wyniki dziewięciu z 17 uczestników badania pokazują, że interfejs neuronowy najwyraźniej nie rozróżnił ich. Ale maszyny Goldberga i te same twarze, przeciwnie, z punktu widzenia mózgu, bardzo się od siebie różnią.

Wyniki klasyfikacji. A - abstrakcyjne kształty, W - wodospady, HF - ludzkie twarze, GM - Samochody Goldberg, sporty ekstremalne
Wyniki klasyfikacji. A - abstrakcyjne kształty, W - wodospady, HF - ludzkie twarze, GM - Samochody Goldberg, sporty ekstremalne

Wyniki klasyfikacji. A - abstrakcyjne kształty, W - wodospady, HF - ludzkie twarze, GM - Samochody Goldberg, sporty ekstremalne.

Na pierwszy rzut oka nie jest jasne, dlaczego tak się dzieje: raczej nie można odróżnić tych samych maszyn i kształtów geometrycznych od siebie. Wszystko staje się trochę jaśniejsze, jeśli spojrzysz na przykład klatek z użytych filmów.

Przykładowe obrazy z pięciu klas
Przykładowe obrazy z pięciu klas

Przykładowe obrazy z pięciu klas.

Najprawdopodobniej (oczywiście możemy tylko tutaj założyć) sukces klasyfikatora zależy od tego, jak bardzo obrazy użyte w obu klasach różnią się od siebie jakimiś powierzchownymi, podstawowymi cechami - przede wszystkim kolorem. To również dobrze koreluje z faktem, że wymiar ukrytej przestrzeni w autoenkoderze wynosi 10.

Generalnie, aby sklasyfikować obrazy w pięciu klasach, wystarczy wymiar pięciu, ale w tym przypadku zostanie to zrobione z maksimum histogramu koloru - co oznacza, że wymiar 10 nie poprawi się zbytnio i wyjaśni wynik.

Nie jest do końca jasne, dlaczego autorzy nie zastosowali klasyfikatora liniowego dla pięciu klas jednocześnie zamiast dziesięciu klasyfikatorów binarnych: najprawdopodobniej byłoby lepiej.

Potem następuje etap rekonstrukcji powstałego obrazu. To, że wychodzi rozmazane, jest zrozumiałe - chodzi o ten sam wymiar ukrytej przestrzeni. Ale tutaj dwie rzeczy są mylące.

Po pierwsze, oryginalne i zrekonstruowane obrazy są do siebie bardzo podobne. Tutaj oczywiście nie chcę nikogo denerwować (w tym siebie - wciąż jesteśmy za postępem), ale nie wynika to z tego, że sygnał jest tak dobrze nagrany i zdekodowany (a nawet w czasie rzeczywistym!), Ale ze względu na fakt, że algorytm przywraca dokładnie te obrazy, które już posiadał.

Co więcej, nie zawsze działa to tak dobrze, jak byśmy chcieli: jeśli na przykład spojrzysz na wideo z działania systemu, zauważysz, że na filmie z płaczącym mężczyzną interfejs neuronowy z jakiegoś powodu widzi kobietę. Dzieje się tak dlatego, że algorytm nie rekonstruuje obrazów, ale obiekty określonej klasy: nawet jeśli robi to wystarczająco skutecznie, nic nie stoi na przeszkodzie, aby algorytm zobaczył łódź na obrazie motocykla - po prostu dlatego, że należą do tej samej klasy.

Dlatego to, co pojawia się na ekranie podczas rekonstrukcji, jest często tylko średnim obrazem wszystkich użytych obiektów klasy.

Jeśli chodzi o sensowność korzystania z systemu zamkniętego, to wszystko nie jest z nim jasne: wykonując zadanie, osoba widzi zarówno zapis sygnałów EEG, jak i obraz stopniowo wyłaniający się z jego głowy. Trudno powiedzieć, czy to faktycznie pomaga - autorzy nie porównali wydajności interfejsu ze wzmocnieniem i bez. Ale na pierwszy rzut oka wydaje się, że nie do końca. Jeśli to pomoże, naprawdę chcę wiedzieć, jak to zrobić.

Ogólnie możemy bezpiecznie stwierdzić, że komputery nie nauczyły się czytać myśli. I nawet nie nauczyli się, jak odtworzyć wideo. Na podstawie pracy naukowców nauczyli się jedynie podzielić obiekty, które widzieli, na pięć klas w oparciu o podstawowe kryteria. Czy komputery były w stanie to zrobić wcześniej? Oczywiście, że tak. Czy jest tu mózg? Oczywiście, że tak: ale to mózg widzi, a nie mózg, który rozumie, co dokładnie widział.

Elizaveta Ivtushok

Zalecane: