Sztuczna Inteligencja Nauczyła Się Poprawnie Rozpoznawać Mowę W Hałasie - Alternatywny Widok

Wideo: Sztuczna Inteligencja Nauczyła Się Poprawnie Rozpoznawać Mowę W Hałasie - Alternatywny Widok

Wideo: Najtrudniejszy test obrazkowy, który przejdą tylko najbardziej spostrzegawczy 2024, Może

2024 Autor: Keith Bush | [email protected]. Ostatnio zmodyfikowany: 2023-12-16 14:39

Wirtualni asystenci i systemy rozpoznawania głosu nauczyły się „rozpoznawać” to, co ktoś do nich mówi, i wykonywać jego polecenia. Ale dla prawidłowego działania tej samej Siri i Cortany, obcy szum może stanowić duży problem. W radzeniu sobie z tą techniczną wadą mogą pomóc eksperci Mitsubishi Electric, którzy przedstawili nową technologię oddzielania mowy jednej osoby od ogólnego hałasu.

Technologia japońskiej firmy nazywa się Deep Clustering, której działanie zbudowane jest na zasadach uczenia maszynowego. Na początek sztuczna inteligencja nauczyła się samodzielnie oddzielać mowę jednej osoby od ogólnego strumienia różnych dźwięków i odgłosów. Sieć neuronowa rozdziela przychodzące dane audio na różne elementy i analizuje każdy z nich z osobna, po czym może już przetwarzać ludzki głos. Podobną pracę obserwuje się, gdy dwóch lub więcej rozmówców jest „połączonych”.

Podczas demonstracji technologii od japońskiej firmy system był w stanie z powodzeniem oddzielić mowę dwóch osób mówiących tym samym zdaniem w różnych językach do jednego mikrofonu. Całe przetwarzanie odbywało się w czasie rzeczywistym, a opóźnienie nie przekraczało trzech sekund. Dokładność rozpoznawania wynosiła 90 proc., A gdy trzy osoby zaczęły mówić do mikrofonu, odsetek „trafień” spadł do 80, co również jest dobrym wynikiem. Zdaniem autorów projektu Anthony Vetro i Yohei Okato,

„W przeciwieństwie do oddzielenia mowy od dźwięków tła, oddzielenie mowy jednej osoby od szumu„ głosu”osób mówiących w tym samym czasie jest zadaniem bardzo trudnym, ponieważ dźwięki głosu różnych osób mają wiele osobliwości. W większości systemów problem separacji głosu rozwiązuje się poprzez zainstalowanie dwóch lub więcej mikrofonów, jednak w przypadku korzystania tylko z jednego mikrofonu tylko sztuczna inteligencja poradzi sobie z zadaniem separacji głosu. Technologia ta znajduje zastosowanie wszędzie tam, gdzie wymagana jest wysoka dokładność rozpoznawania komunikatów głosowych. Na przykład w systemach sterowania głosem samochodów, wind, gospodarstw domowych i innych urządzeń elektronicznych”.

VLADIMIR KUZNETSOV

Zalecane:

Artyści Boją Się Przebywać W Studiu Telewizyjnym Z Powodu „paranormalnej Aktywności”. Alternatywne Spojrzenie

Słynne studio telewizyjne Old Granada Studios w Manchesterze, w którym The Beatles zagrali jeden z pierwszych koncertów w telewizji, a sfilmowano słynny serial Coronation Street, wydaje się być uchwycone przez duchy