Kiedy Sztuczna Inteligencja Zacznie Głosić Serię - Alternatywny Widok

2024 Autor: Keith Bush | [email protected]. Ostatnio zmodyfikowany: 2023-12-16 14:39

Rosyjscy wydawcy już eksperymentują z automatycznym nagrywaniem audiobooków, w przyszłości sztucznej inteligencji można powierzyć tłumaczenie seriali i dubbingowanie ich głosami ulubionych aktorów. O cechach takich technologii i czasie ich tworzenia.

Mowa ustna zostaje zapisana

W serwisie YouTube automatyczne napisy do filmów są tworzone przez oprogramowanie do rozpoznawania głosu i tłumaczenia mowy na tekst. Opiera się na samouczących się sieciach neuronowych. Ta opcja ma ponad dziesięć lat, ale wynik wciąż jest daleki od ideału. Najczęściej można uchwycić tylko ogólne znaczenie tego, co zostało powiedziane. Jaka jest trudność?

Powiedzmy, wyjaśnia Andrey Filchenkov, szef laboratorium uczenia maszynowego na Uniwersytecie ITMO, że budujemy algorytm rozpoznawania mowy. Wymaga to szkolenia sieci neuronowej na dużej macierzy danych.

Potrzeba setek, tysięcy godzin nagrań mowy i ich poprawnego porównania z tekstami, w tym zaznaczenia początku i końca fraz, zmiany rozmówców itd. Nazywa się to obudową. Im jest większa, tym lepsze jest szkolenie sieci neuronowej, dla języka angielskiego stworzono naprawdę duże korpusy, więc rozpoznawanie jest znacznie lepsze. Ale w przypadku rosyjskiego lub, powiedzmy, hiszpańskiego danych jest znacznie mniej, a dla wielu innych języków nie ma żadnych danych.

„A wynik jest odpowiedni” - podsumowuje naukowiec.

„Ponadto oceniamy znaczenie słowa lub frazy w filmie nie tylko na podstawie dźwięku, ale także intonacji aktora i wyrazu twarzy. Jak to interpretujesz?” - dodaje Sergey Aksenov, docent na Wydziale Informatyki Politechniki Tomskiej.

Film promocyjny:

„Jak radzić sobie z cechami płynnej mowy? Rozmyta artykulacja, szkicowość, wykrzykniki, pauzy? Wszakże w zależności od tego znaczenie się zmienia, jak w przypadku „nie możesz być wybaczony”. Jak nauczyć maszynę określić, gdzie mówca ma przecinek? A w poezji? - wymienia Marina Bolsunovskaya, kierownik laboratorium „Przemysłowe systemy strumieniowego przetwarzania danych” Centrum NTI SPbPU.

Zdaniem eksperta najbardziej udane projekty dotyczą wąskich obszarów. Na przykład opracowany przez grupę firm RTC system rozpoznawania profesjonalnej wypowiedzi lekarzy przy użyciu terminów medycznych pomaga lekarzom w prowadzeniu historii medycznej.

„Tutaj możesz jasno zarysować obszar tematyczny i podkreślić słowa kluczowe w mowie. Lekarz kładzie szczególny nacisk na niektóre fragmenty intonacji: skargi pacjentów, diagnoza”- wyjaśnia Bolsunovskaya.

Na inny problem zwraca uwagę Michaił Burtsev, kierownik laboratorium systemów neuronowych i uczenia głębokiego w MIPT. Faktem jest, że na razie maszyna jest bardziej skuteczna w rozpoznawaniu tekstu, gdy jedna osoba mówi, niż kilka, jak w filmach.

Tłumaczenie z kontekstem

Weźmy na przykład film w języku angielskim, który jest fragmentem serialu „Gra o tron” i włączmy automatyczne rosyjskie napisy. To, co widzimy, może nas rozśmieszyć.

Kadr z * Game of Thrones *.

Jednak w tłumaczeniu maszynowym technologia odniosła imponujący sukces. Tak więc Tłumacz Google dość znośnie tłumaczy teksty w popularnych językach, często wymagana jest tylko minimalna edycja.

Faktem jest, że tłumacz sieci neuronowej jest również szkolony na dużej liczbie początkowych, poprawnie oznaczonych danych - równoległym korpusie, który pokazuje, jak każda fraza w oryginalnym języku powinna wyglądać po rosyjsku.

„Budowa takich obiektów jest bardzo pracochłonna, kosztowna i czasochłonna, zajmuje miesiące i lata. Aby wytrenować sieć neuronową, potrzebujemy tekstów o rozmiarze Biblioteki Aleksandryjskiej. Modele są uniwersalne, ale wiele zależy od języka. Jeśli podasz dużo danych, na przykład w Avar, a tłumaczenie będzie wysokiej jakości, ale dla Avara po prostu nie ma takiej ilości danych”, mówi Andrey Filchenkov.

„Tłumaczenie to osobny produkt, który jest powiązany z oryginałem, ale mu nie równa się” - mówi Ilya Mirin, dyrektor Szkoły Ekonomii Cyfrowej na Dalekowschodnim Uniwersytecie Federalnym. - Typowym przykładem są tłumaczenia filmów zagranicznych z lat 90. autorstwa Dmitrija Puczkowa (Goblina). Dopiero po jego pracy stało się jasne, co się tam dzieje. Z wersji VHS nie mogliśmy znaleźć niczego odpowiedniego. Ewentualnie spróbuj przetłumaczyć na język, który dobrze znasz, coś od Mistrza i Małgorzaty. Na przykład „w czarnym płaszczu z zakrwawioną podszewką”. Maszyna tego nie potrafi”.

Sieci neuronowe dobrze uczą się z wielu typowych przykładów, ale filmy są pełne skomplikowanych znaczeń i konotacji, żartów, które nie są dostępne dla maszyny - nie potrafią ich rozróżnić.

„W każdym odcinku animowanego serialu Futurama jest odniesienie do klasycznego kina amerykańskiego - Casablanki, Rzymskiego Święta i tak dalej. W takich momentach, aby uchwycić i przepakować znaczenie dla tych, którzy tych filmów nie oglądali, tłumacz musi wymyślić bliski odpowiednik z rosyjskiego kontekstu. Nieprawidłowe tłumaczenie maszynowe może bardzo zniechęcić widza”- kontynuuje Mirin.

Jego zdaniem jakość tłumaczenia maszynowego zbliża się do 80 proc., Reszta to specyfika, którą trzeba dopisać ręcznie, z udziałem ekspertów. „A jeśli 20–30% fraz wymaga ręcznej korekty, to jaki jest pożytek z tłumaczenia maszynowego?” - mówi badacz.

„Tłumaczenie to najbardziej problematyczny etap” - zgadza się Siergiej Aksenow. - Wszystko zależy od semantyki i kontekstu. Dostępne narzędzia mogą być używane do tłumaczenia i automatycznego odtwarzania głosu, na przykład bajki dla dzieci z prostym słownictwem. Ale z interpretacją jednostek frazeologicznych, nazw własnych, słów, które odsyłają widzów do pewnych rzeczywistości kulturowych, pojawiają się trudności”.

W filmach i wideo kontekst jest zawsze wizualny i często towarzyszy mu muzyka i hałas. Na podstawie obrazu spekulujemy, o czym mówi bohater. Mowa zamieniona na tekst jest pozbawiona tych informacji, więc tłumaczenie jest trudne. Taka sytuacja ma miejsce w przypadku tłumaczy pracujących z napisami tekstowymi bez oglądania filmu. Często się mylą. Tłumaczenie maszynowe to ta sama historia.

Mowa głosów AI

Aby dubbingować serię przetłumaczoną na język rosyjski, potrzebujesz algorytmu do generowania mowy naturalnej z tekstu - syntezatora. Tworzy je wiele firm informatycznych, w tym Microsoft, Amazon, Yandex i radzą sobie całkiem nieźle.

Według Andrieja Filczenkowa kilka lat temu minuta dubbowania syntezatora mowy zajęła kilka godzin, teraz prędkość przetwarzania znacznie wzrosła. Zadanie syntezy mowy w niektórych obszarach, w których wymagane są neutralne dialogi, jest rozwiązane całkiem dobrze.

Wielu już uważa za pewnik rozmowę z robotem przez telefon, wykonywanie poleceń z nawigatora samochodowego, dialog z Alicją w samochodzie Yandex. Drive. Jednak w przypadku dubbingu seriali te technologie nie są jeszcze odpowiednie.

„Problemem są emocje i aktorstwo. Nauczyliśmy się, jak sprawić, by głos maszyny był ludzki, ale aby nadal brzmiał odpowiednio do kontekstu i budził zaufanie, jest daleko. Słabe aktorstwo głosowe może łatwo zabić postrzeganie filmu”- powiedział Filczenkow.

Według Michaiła Burtseva synteza mowy jest całkiem realna. Jest to jednak wymagające dużej mocy obliczeniowej i nie można tego zrobić w czasie rzeczywistym za rozsądną cenę.

„Istnieją algorytmy, które syntetyzują mowę podobną do mowy konkretnego aktora. To jest barwa, sposób mówienia i wiele więcej. Więc każdy zagraniczny aktor będzie mówił po rosyjsku”- przewiduje Burcew. Oczekuje zauważalnego postępu w nadchodzących latach.

Siergiej Aksenow poświęca od pięciu do dziesięciu lat na opracowanie narzędzi do tłumaczenia i dubbingu złożonych prac z najpopularniejszych języków, takich jak angielski. Naukowiec przytacza przykład Skype'a, który kilka lat temu zademonstrował możliwość organizowania lekcji online dla uczniów mówiących różnymi językami. Ale nawet wtedy system nie będzie idealny, będzie musiał się ciągle uczyć: zdobywać słownictwo, uwzględniać kontekst kulturowy.