Sieć Neuronowa Została Nauczona, Aby Prawie Idealnie Kopiować Ludzki Głos - Alternatywny Widok

Spisu treści:

Sieć Neuronowa Została Nauczona, Aby Prawie Idealnie Kopiować Ludzki Głos - Alternatywny Widok
Sieć Neuronowa Została Nauczona, Aby Prawie Idealnie Kopiować Ludzki Głos - Alternatywny Widok
Anonim

W zeszłym roku firma DeepMind, zajmująca się sztuczną inteligencją, podzieliła się szczegółami na temat swojego nowego projektu WaveNet, sieci neuronowej uczenia głębokiego używanej do syntezy realistycznej ludzkiej mowy. Niedawno ukazała się ulepszona wersja tej technologii, która posłuży jako podstawa cyfrowego asystenta mobilnego Google Assistant.

System syntezy głosu (znany również jako funkcja zamiany tekstu na mowę, TTS) jest zwykle zbudowany wokół jednej z dwóch podstawowych metod. Metoda konkatenatywna (lub kompilacyjna) polega na konstruowaniu fraz poprzez zbieranie pojedynczych fragmentów nagranych słów i części wcześniej nagranych przy udziale lektora. Główną wadą tej metody jest konieczność ciągłej wymiany biblioteki dźwięków za każdym razem, gdy wprowadzane są aktualizacje lub zmiany.

Inną metodą jest parametryczny TTS, a jej cechą jest wykorzystanie zestawów parametrów, za pomocą których komputer generuje żądaną frazę. Wadą metody jest to, że najczęściej wynik objawia się w postaci nierealistycznego lub tzw. Odgłosu robota.

Z drugiej strony WaveNet wytwarza fale dźwiękowe od zera za pomocą konwolucyjnego systemu sieci neuronowej, w którym dźwięk jest generowany w kilku warstwach. Po pierwsze, aby wyszkolić platformę do syntezy mowy „na żywo”, jest ona „podawana” ogromną liczbą próbek, zwracając uwagę, które sygnały dźwiękowe brzmią realistycznie, a które nie. Daje to syntezatorowi głosu możliwość odtwarzania naturalistycznej intonacji, a nawet szczegółów, takich jak mlaskanie ust. W zależności od tego, jakie próbki mowy przechodzą przez system, pozwala to na wypracowanie unikalnego „akcentu”, który w dłuższej perspektywie może posłużyć do tworzenia wielu różnych głosów.

Ostry na języku

Być może największym ograniczeniem systemu WaveNet było to, że do działania wymagał on ogromnej mocy obliczeniowej, a nawet gdy ten warunek został spełniony, nie różnił się szybkością. Na przykład wygenerowanie 0,02 sekundy dźwięku zajęło około 1 sekundy.

Po roku pracy inżynierowie DeepMind wciąż znaleźli sposób na ulepszenie i optymalizację systemu, dzięki czemu jest on teraz w stanie wytwarzać surowy dźwięk o długości jednej sekundy w ciągu zaledwie 50 milisekund, czyli 1000 razy szybciej niż jego pierwotne możliwości. Ponadto specjalistom udało się zwiększyć częstotliwość próbkowania audio z 8-bitowego do 16-bitowego, co pozytywnie wpłynęło na testy z udziałem słuchaczy. Te sukcesy utorowały drogę WaveNet do integracji z produktami konsumenckimi, takimi jak Asystent Google.

Film promocyjny:

Obecnie WaveNet może być używany do generowania głosów w języku angielskim i japońskim za pośrednictwem Asystenta Google i wszystkich platform, które używają tego cyfrowego asystenta. Ponieważ system może tworzyć specjalne typy głosów, w zależności od tego, jaki zestaw próbek został mu przekazany do treningu, w najbliższej przyszłości Google najprawdopodobniej wdroży obsługę syntezy realistycznej mowy w WaveNet w innych językach, w tym z uwzględnieniem ich lokalne dialekty.

Interfejsy mowy stają się coraz bardziej powszechne na wielu różnych platformach, ale ich wyraźny nienaturalny charakter dźwięku wyłącza wielu potencjalnych użytkowników. Wysiłki DeepMind mające na celu ulepszenie tej technologii z pewnością przyczynią się do szerszego zastosowania takich systemów głosowych, a także poprawią komfort użytkowania ich użytkowników.

Przykłady syntetyzowanej mowy angielskiej i japońskiej z wykorzystaniem sieci neuronowej WaveNet można znaleźć, klikając to łącze.

Nikolay Khizhnyak