Naukowcy Stworzyli Samouczącą Się Sztuczną Inteligencję, Która Może Grać We Wszystkie Gry - Alternatywny Widok

Spisu treści:

Naukowcy Stworzyli Samouczącą Się Sztuczną Inteligencję, Która Może Grać We Wszystkie Gry - Alternatywny Widok
Naukowcy Stworzyli Samouczącą Się Sztuczną Inteligencję, Która Może Grać We Wszystkie Gry - Alternatywny Widok

Wideo: Naukowcy Stworzyli Samouczącą Się Sztuczną Inteligencję, Która Może Grać We Wszystkie Gry - Alternatywny Widok

Wideo: Naukowcy Stworzyli Samouczącą Się Sztuczną Inteligencję, Która Może Grać We Wszystkie Gry - Alternatywny Widok
Wideo: Premiery gier - listopad 2020 2024, Kwiecień
Anonim

Twórcy rewolucyjnego samouczącego się systemu sztucznej inteligencji AlphaGo Zero zapowiedzieli stworzenie nowej wersji tej maszyny, która może samodzielnie nauczyć się grać w dowolną grę planszową i pokonać człowieka. Jej opis został przedstawiony w czasopiśmie Science.

Głębia umysłu

System AI AlphaGo został opracowany przez Davida Silvera i współpracowników pod koniec 2014 roku, a jego praca została „przetestowana” na mistrzu Europy Fan Hui, który przegrał wszystkie pięć meczów z maszyną. W marcu 2016 roku AlphaGo pokonała mistrza świata Go Lee Sedola w serii pięciu meczów, z których tylko jeden zakończył się ludzkim zwycięstwem.

Silver i jego koledzy byli w stanie osiągnąć te sukcesy, budując swoją sztuczną inteligencję w oparciu o nie jedną, ale dwie sieci neuronowe naraz - specjalne algorytmy naśladujące pracę łańcuchów neuronów w ludzkim mózgu. Jeden z nich odpowiada za ocenę aktualnej pozycji na tablicy, a drugi korzysta z wyników analizy przygotowanej przez pierwszą sieć, aby wybrać kolejny krok.

Kolejnym logicznym krokiem w rozwoju AlphaGo była eliminacja głównej wady wszystkich istniejących sieci neuronowych i systemów sztucznej inteligencji - konieczność nauczenia ich, co mają robić, korzystając z ogromnych archiwów danych przetwarzanych ręcznie przez osobę lub przy bezpośrednim udziale osoby, jak to miało miejsce w pierwszych etapach rozwój AlphaGo.

Silver i jego zespół rozwiązali ten problem, tworząc całkowicie nową sieć neuronową opartą na tak zwanych algorytmach uczenia się ze wzmocnieniem. Ta sieć neuronowa, w przeciwieństwie do swojego gwiezdnego poprzednika, która początkowo była szkolona w grach z ochotnikami i miała wbudowane prymitywne strategie gry, rozpoczęła swoją pracę jako absolutnie początkujący użytkownik z zerową bazą wiedzy.

Innymi słowy, znała tylko zasady gry w Go, warunki początkowe i warunki zwycięstwa, a następnie komputer samodzielnie nauczył się grać w tę starożytną chińską strategię, bawiąc się sobą i działając metodą prób i błędów. Jedynym ograniczeniem w jej pracy był maksymalny czas na przemyślenie ruchu - był to około 0,4 sekundy.

Film promocyjny:

Po każdej takiej grze system sztucznej inteligencji analizował wszystkie swoje ruchy i pamiętał te, które przybliżały jedną z jego „połówek” do zwycięstwa, i wpisywał na swego rodzaju „czarną listę” te kroki, które szczerze mówiąc przegrywały. Korzystając z tych danych, sieć neuronowa odbudowała się, stopniowo osiągając poziom, który pierwsza wersja AlphaGo osiągnęła przed serią gier z Lee Sedolem.

Przejście na algorytmy samouczące się pozwoliło AlphaGo Zero nie tylko przekroczyć poziom swojego poprzednika i pokonać go z wynikiem 100-0, ale także ulepszyć wiele innych aspektów jego pracy. W szczególności proces jego szkolenia trwał tylko trzy dni i około pięciu milionów gier, co było o rząd wielkości mniej niż żądania pierwszej wersji sztucznej inteligencji.

Droga do doskonałości

Pomyślne zakończenie eksperymentów z AlphaGo Zero skłoniło Silvera i jego zespół do rozważenia, czy podobna sieć neuronowa mogłaby posłużyć do zdobycia tytułu mistrza w innych typach gier strategicznych i planszowych.

W tym celu naukowcy wbudowali w AlphaGo Zero kolejny nowy element - algorytmy heurystyczne do losowego wyszukiwania rozwiązań, a także kod uwzględniający losowanie w niektórych grach. Ponadto nowa wersja alfa nieustannie ulepszała swoją strukturę, zamiast być aktualizowana etapami, jak jej poprzedniczka.

Te stosunkowo proste zmiany, jak pokazały dalsze eksperymenty, znacznie zwiększyły szybkość samouczenia się tego systemu sztucznej inteligencji i uczyniły z niego uniwersalną maszynę zdolną do rozgrywania wszystkich typów strategii planszowych.

Naukowcy przetestowali jego działanie na trzech typach gier - go, zwykłych szachach i ich japońskiej odmiany, shogi. We wszystkich trzech przypadkach nowy pomysł Silver osiągnął poziom arcymistrza w mniej niż milionie gier, osiągając niemal ludzką selektywność w wyborze możliwych ruchów w zaledwie 9-12 godzin treningu szachowego i 13 dni na start.

Wcześniej pokonała najbardziej wyrafinowane programy komputerowe, które grają w te gry - algorytm Stockfisha zrezygnował z czwartej godziny treningu AlphaZero, podczas gdy Elmo, obecny mistrz w shogi, wytrzymał tylko dwie godziny. W końcu pierwsza wersja AlphaGo zaczęła ustępować swojemu „wnukowi” po około 30 godzinach jego treningu.

Kolejnymi „ofiarami” AlphaZero, jak zauważyli naukowcy, mogą być „prawdziwe” gry komputerowe, takie jak Starcraft II i Dota 2. Zdobycie tytułu mistrzowskiego w takich dyscyplinach esportowych, ich zdaniem, otworzy drogę samouczącej się sztucznej inteligencji do penetracji mniej sformalizowanych dziedzin nauki i kultury i technologia.

Zalecane: