Jak Działa Sztuczna Inteligencja: Rozpoznawanie Mowy - Alternatywny Widok

Wideo: Jak Działa Sztuczna Inteligencja: Rozpoznawanie Mowy - Alternatywny Widok

Wideo: Jak działa sztuczna inteligencja i dlaczego powinniśmy to wiedzieć | Michał Wójcik | TEDxTarnow 2024, Wrzesień

2024 Autor: Keith Bush | [email protected]. Ostatnio zmodyfikowany: 2023-12-16 14:39

Każdy z nas na co dzień ma do czynienia z tak tajemniczym zjawiskiem jak sztuczna inteligencja - to on pozwala asystentom głosowym i wyszukiwarkom rozpoznawać ludzką mowę i odgadnąć pragnienia użytkowników. Dziś porozmawiamy o tym, jak dokładnie ta technologia jest zaaranżowana i jakie perspektywy czekają ten obszar rozwoju w najbliższej przyszłości.

Sztuczna inteligencja to bardzo szerokie pojęcie, w ramach którego wiele algorytmów już istnieje i wciąż jest opracowywanych, przeznaczonych do wykonywania szerokiego zakresu zadań praktycznych. Ale do czego właściwie są zdolne współczesne programy sztucznej inteligencji i jakimi zasadami się kierują podczas swojej pracy? Dziś porozmawiamy o jednej z kluczowych cech umysłu maszynowego, z którą każdy z nas regularnie spotyka się w życiu codziennym - zdolności asystentów głosowych do rozpoznawania mowy ludzkiej.

Rozpoznawanie głosu

Aby zmierzyć głos, program wykorzystuje szereg parametrów dźwięku: częstotliwość i długość fali dźwiękowej w określonym momencie. Na przykład, gdy rozmawiasz z popularną asystentką głosową Alexą, oprogramowanie dzieli Twój głos na slajdy o długości 25 milisekund, a następnie konwertuje każdy z segmentów na podpisy cyfrowe. Następnie bloki sygnatur są porównywane z wewnętrznym katalogiem dźwięków programu, aż liczba dopasowań będzie wystarczająco duża, aby sztuczna inteligencja „przetłumaczyła” liczby na alfabetyczne zapytanie, które rozumie.

Obserwuj ekran telefonu podczas korzystania z Siri lub Asystenta Google, a zobaczysz, że słownictwo zmienia się, gdy wymawiasz słowa. Dzieje się tak dzięki temu, że z każdym kolejnym „krokiem” program porównuje również otrzymany wynik z wewnętrzną bazą danych i buduje słowa w zależności od dopasowań. Według Rohita Prasada, głównego naukowca w oddziale firmy Amazon Alexa, „model językowy uczy się wielu miliardów słów w formie tekstu”. Kolejność słów również odgrywa ważną rolę: można to zauważyć za pomocą zwykłej wyszukiwarki Google, która czasami podaje różne dane dla identycznych zapytań, w których przestawia się tylko kilka słów.

Film promocyjny:

Perspektywy rozpoznawania mowy

Alan Black z Carnegie Institute for Language Technology twierdzi, że dla wszystkich profesjonalistów w dużych firmach najciekawsze jest znalezienie granic własnego systemu. „Kiedy program mówi:„ Nie mogę tego zrobić”, sytuacja staje się naprawdę interesująca” - żartuje. Jednak rzeczywiście tak jest: odpowiadanie na nieprzewidywalne prośby użytkowników jest nawet jednym z głównych zadań, nad którymi bada się kręgi studenckie, które walczą o nagrodę Alexa Prize - a to aż 2,5 miliona dolarów. Ich zadaniem jest stworzenie chatbota przeznaczonego do komunikowania się z ludźmi, którzy zadają spójne i sensowne pytania. Informacje w tym przypadku są aktualizowane co 20 minut. Brzmi jak całkiem łatwe zadanie nawet dla przeciętnego programisty,ale w praktyce komunikacja programu z prawdziwymi ludźmi zawsze wiąże się z odchyleniami od tematu dialogu, spontanicznymi frazami i innymi naruszeniami. Program, który nauczy się pracować z nimi, a także z prawdziwym człowiekiem, będzie ogromnym przełomem dla całej branży AI.

Wasilij Makarow