Brytyjska firma DeepMind, która stała się częścią Google w 2014 roku, nieustannie pracuje nad udoskonaleniem sztucznej inteligencji. W czerwcu 2018 roku jej pracownicy zaprezentowali sieć neuronową zdolną do tworzenia obrazów 3D z 2D. W październiku twórcy poszli dalej - stworzyli sieć neuronową BigGAN do generowania obrazów przyrody, zwierząt i obiektów, które są trudne do odróżnienia od prawdziwych fotografii.
Podobnie jak w przypadku innych projektów sztucznych obrazów, technologia ta opiera się na generatywnej przeciwnej sieci neuronowej. Przypomnijmy, że składa się z dwóch części: generatora i dyskryminatora. Pierwsza tworzy obrazy, a druga ocenia ich podobieństwo do próbek o idealnym wyniku.
W tej pracy chcieliśmy zatrzeć granicę między obrazami generowanymi przez sztuczną inteligencję a zdjęciami z prawdziwego świata. Okazało się, że wystarczą do tego istniejące metody generacji.
Użyto różnych zestawów obrazów, aby nauczyć BigGAN tworzenia obrazów motyli, psów i jedzenia. Najpierw szkolenie było oparte o bazę danych ImageNet, a następnie - większy zestaw JFT-300M składający się z 300 milionów zdjęć, podzielony na 18 000 kategorii.
Szkolenie BigGAN trwało 2 dni. Wymagało to 128 procesorów Google Tensor zaprojektowanych specjalnie do uczenia maszynowego.
Profesorowie ze szkockiego Uniwersytetu Heriot-Watt również brali udział w rozwoju sieci neuronowej. Szczegóły dotyczące technologii opisane są w artykule „Szkolenia
wielkoskalowa generatywna przeciwstawna sieć neuronowa GAN do syntezy wysokiej wierności obrazów naturalnych”.
Film promocyjny:
We wrześniu naukowcy z Carnegie Melon University wykorzystali generatywne przeciwstawne sieci neuronowe do stworzenia systemu nakładania wyrazów twarzy na twarze innych osób.
Ramis Ganiev