Sieć Neuronowa Nauczyła Się „animować” Portrety Na Podstawie Tylko Jednego Statycznego Obrazu - Alternatywny Widok

Sieć Neuronowa Nauczyła Się „animować” Portrety Na Podstawie Tylko Jednego Statycznego Obrazu - Alternatywny Widok
Sieć Neuronowa Nauczyła Się „animować” Portrety Na Podstawie Tylko Jednego Statycznego Obrazu - Alternatywny Widok

Wideo: Sieć Neuronowa Nauczyła Się „animować” Portrety Na Podstawie Tylko Jednego Statycznego Obrazu - Alternatywny Widok

Wideo: Sieć Neuronowa Nauczyła Się „animować” Portrety Na Podstawie Tylko Jednego Statycznego Obrazu - Alternatywny Widok
Wideo: Ta sztuczna inteligencja nauczyła się animować humanoidy🚶 2024, Może
Anonim

Rosyjscy specjaliści z Centrum Sztucznej Inteligencji Samsung AI w Moskwie, we współpracy z inżynierami z Instytutu Nauki i Technologii Skolkovo, opracowali system zdolny do tworzenia realistycznych animowanych obrazów ludzkich twarzy na podstawie zaledwie kilku statycznych ludzkich klatek. Zwykle w tym przypadku wymagane jest użycie dużych baz danych obrazów, jednak w przykładzie przedstawionym przez twórców system został przeszkolony do tworzenia animowanego obrazu ludzkiej twarzy z zaledwie ośmiu statycznych klatek, aw niektórych przypadkach wystarczyła jedna. Więcej informacji na temat rozwoju można znaleźć w artykule opublikowanym w repozytorium internetowym ArXiv.org.

Image
Image

Z reguły reprodukcja fotorealistycznego spersonalizowanego modułu ludzkiej twarzy jest z reguły dość trudna ze względu na dużą złożoność fotometryczną, geometryczną i kinematyczną reprodukcji ludzkiej głowy. Tłumaczy się to nie tylko złożonością modelowania twarzy jako całości (do tego jest wiele podejść do modelowania), ale także złożonością modelowania niektórych cech: jamy ustnej, włosów i tak dalej. Drugim czynnikiem komplikującym jest nasza skłonność do wyłapywania nawet drobnych błędów w gotowym modelu ludzkich głów. Ta niska tolerancja na błędy modelowania wyjaśnia obecne rozpowszechnienie niefotorealistycznych awatarów używanych w telekonferencjach.

Według autorów system, nazwany Fewshot learning, jest w stanie stworzyć wysoce realistyczne modele gadających głów ludzi, a nawet obrazy portretowe. Algorytmy syntetyzują obraz głowy tej samej osoby z liniami odniesienia twarzy pobranymi z innego fragmentu wideo lub wykorzystując punkty odniesienia twarzy innej osoby. Jako źródło materiału do szkolenia systemu twórcy wykorzystali obszerną bazę danych zawierającą obrazy wideo znanych osób. Aby uzyskać możliwie najdokładniejszą mówiącą głowicę, system musi używać więcej niż 32 obrazów.

Aby stworzyć bardziej realistyczne animowane obrazy twarzy, programiści wykorzystali wcześniejsze osiągnięcia w generatywnym modelowaniu kontradyktoryjnym (GAN, w którym sieć neuronowa analizuje szczegóły obrazu, w rzeczywistości stając się artystą), a także podejście do meta-uczenia maszynowego, w którym każdy element systemu jest szkolony i zaprojektowany, aby rozwiązać niektóre Szczególnym zadaniem.

Schemat meta-learningu
Schemat meta-learningu

Schemat meta-learningu.

Image
Image
Image
Image

Film promocyjny:

Do przetwarzania statycznych obrazów głów ludzi i przekształcania ich w animowane wykorzystano trzy sieci neuronowe: Embedder (sieć wdrożeniowa), Generator (sieć generacyjna) i Discriminator (sieć dyskryminatora). Pierwsza dzieli obrazy głowy (z przybliżonymi punktami orientacyjnymi twarzy) na wektory osadzające, które zawierają informacje niezależne od ułożenia, druga sieć wykorzystuje punkty orientacyjne twarzy uzyskane przez sieć osadzającą i generuje na ich podstawie nowe dane poprzez zestaw warstw splotowych, które zapewniają odporność na zmiany skali, przemieszczenia, zakręty, zmiana kąta i inne zniekształcenia oryginalnego obrazu twarzy. Dyskryminator sieciowy służy do oceny jakości i autentyczności pozostałych dwóch sieci. W rezultacie system przekształca punkty orientacyjne twarzy osoby w realistycznie wyglądające spersonalizowane zdjęcia.

Image
Image
Image
Image

Twórcy podkreślają, że ich system jest w stanie zainicjować parametry zarówno sieci generatorów, jak i sieci dyskryminatorów indywidualnie dla każdej osoby na obrazku, dzięki czemu proces uczenia się może opierać się na zaledwie kilku obrazach, co zwiększa jego szybkość pomimo konieczności doboru kilkudziesięciu milionów parametrów.

Nikolay Khizhnyak

Zalecane: