Krótka historia ASR: automatycznego rozpoznawania mowy

Descript z dumą należy do nowej generacji kreatywnego oprogramowania, które powstało dzięki ostatnim postępom w dziedzinie automatycznego rozpoznawania mowy (ASR). To ekscytujący czas: technologia ta niedawno przekroczyła próg, na którym od dawna obiecuje niezwykłą użyteczność, a teraz jest jeszcze lepiej.

Ten moment nadchodzi od dawna. Technologia stojąca za rozpoznawaniem mowy jest rozwijana od ponad pół wieku, przechodząc kilka okresów intensywnych obietnic i rozczarowań. Co więc zmieniło się, że ASR stało się opłacalne w zastosowaniach komercyjnych? I co dokładnie mogły osiągnąć te systemy na długo przed tym, zanim ktokolwiek z nas usłyszał o Siri?

Historia rozpoznawania mowy dotyczy w takim samym stopniu zastosowania różnych podejść, jak i rozwoju surowej technologii, choć oba te aspekty są ze sobą nierozerwalnie związane. W ciągu kilkudziesięciu lat badacze wymyślili niezliczone sposoby rozbioru języka: na dźwięki, na strukturę – i na statystyki.

Ludzkie zainteresowanie rozpoznawaniem i syntezą mowy sięga setek lat wstecz (co najmniej!) – ale dopiero w połowie XX wieku nasi przodkowie zbudowali coś rozpoznawalnego jako ASR.

Wśród najwcześniejszych projektów był „rozpoznawacz cyfr” o nazwie Audrey, stworzony przez naukowców z Bell Laboratories w 1952 roku. Audrey potrafiła rozpoznawać wypowiadane cyfry, szukając dźwiękowych odcisków palców zwanych formantami¹ – wydestylowanych esencji dźwięków.

W latach 60. firma IBM opracowała Shoebox – system, który potrafił rozpoznawać cyfry i polecenia arytmetyczne, takie jak „plus” i „razem”. Co więcej, Shoebox mógł przekazać problem matematyczny do maszyny dodającej, która obliczała i drukowała odpowiedź².

1961 – Demonstracja IBM Shoebox

W międzyczasie naukowcy w Japonii zbudowali sprzęt, który mógł rozpoznawać części składowe mowy, takie jak samogłoski; inne systemy mogły oceniać strukturę mowy, aby dowiedzieć się, gdzie może kończyć się słowo. A zespół z University College w Anglii mógł rozpoznać 4 samogłoski i 9 spółgłosek poprzez analizę fonemów, czyli pojedynczych dźwięków języka¹.

Ale podczas gdy dziedzina ta robiła kolejne kroki naprzód, niekoniecznie było jasne, dokąd ta ścieżka zmierza. A potem: katastrofa.

Październik 1969 – The Journal of the Acoustical Society of America

A Piercing Freeze

Punkt zwrotny pojawił się w postaci listu napisanego przez Johna R. Pierce’a w 1969 roku.

Pierce już dawno temu wyrobił sobie pozycję inżyniera o międzynarodowej sławie; wśród innych osiągnięć wymyślił słowo tranzystor (obecnie wszechobecne w inżynierii) i pomógł wystrzelić Echo I, pierwszego w historii satelitę komunikacyjnego. Do 1969 roku był kierownikiem w Bell Labs, które zainwestowało w rozwój rozpoznawania mowy.

W liście otwartym opublikowanym w The Journal of the Acoustical Society of America, Pierce przedstawił swoje obawy. Powołując się na „bujne” środowisko finansowania w następstwie II Wojny Światowej i Sputnika, oraz brak odpowiedzialności za nie, Pierce upomniał dziedzinę za brak rygoru naukowego, twierdząc, że zbyt wiele dzieje się w niej dzikich eksperymentów:

„Wszyscy wierzymy, że nauka o mowie jest możliwa, pomimo niedoboru w tej dziedzinie ludzi, którzy zachowują się jak naukowcy i wyników, które wyglądają jak nauka.” – J.R. Pierce, 1969

Pierce postawił pieniądze swojego pracodawcy na swoim: zdefinansował programy ASR firmy Bell, które nie zostałyby przywrócone aż do jego rezygnacji w 1971 roku.

Progress Continues

Na szczęście gdzie indziej było więcej optymizmu. Na początku lat 70-tych ARPA (agencja znana obecnie jako DARPA) Departamentu Obrony USA sfinansowała pięcioletni program o nazwie Speech Understanding Research. Doprowadziło to do stworzenia kilku nowych systemów ASR, z których najbardziej udanym był Harpy Uniwersytetu Carnegie Mellon, który był w stanie rozpoznać nieco ponad 1000 słów do 1976 roku.

1976 – Harpy Speech Recognition System Uniwersytetu Carnegie Mellon

W międzyczasie wysiłki IBM i Bell Laboratories AT&T popchnęły technologię w kierunku możliwych zastosowań komercyjnych. IBM priorytetowo traktował transkrypcję mowy w kontekście korespondencji biurowej, a Bell zajmował się scenariuszami „dowodzenia i kontroli”: prekursorami wybierania głosowego i automatycznych drzewek telefonicznych, które znamy dzisiaj¹.

Pomimo tego postępu, do końca lat 70. ASR był wciąż daleki od bycia opłacalnym dla wszystkiego poza bardzo specyficznymi przypadkami użycia.

The ’80s: Markovs and More

Kluczowy punkt zwrotny nastąpił wraz z popularyzacją Ukrytych Modeli Markowa (HMM) w połowie lat 80. Podejście to stanowiło znaczące przejście „od prostych metod rozpoznawania wzorców, opartych na szablonach i miarach odległości spektralnej, do statystycznej metody przetwarzania mowy”⁴ – co przełożyło się na skokowy wzrost dokładności.

Dużą część poprawy w systemach rozpoznawania mowy od późnych lat 60-tych zawdzięczamy sile tego statystycznego podejścia w połączeniu z postępem w technologii komputerowej niezbędnej do implementacji HMM.⁵

HMM wzięły branżę szturmem – ale nie były sukcesem z dnia na dzień. Jim Baker po raz pierwszy zastosował je do rozpoznawania mowy na początku lat 70. na CMU, a same modele zostały opisane przez Leonarda E. Bauma w latach 60. Dopiero w 1980 roku, kiedy Jack Ferguson wygłosił zestaw pouczających wykładów w Institute for Defense Analyses, technika ta zaczęła się szerzej rozpowszechniać⁴.

Sukces HMM-ów potwierdził pracę Fredericka Jelinka z IBM Watson Research Center, który od wczesnych lat 70. opowiadał się za wykorzystaniem modeli statystycznych do interpretacji mowy, zamiast próbować skłonić komputery do naśladowania sposobu, w jaki ludzie przyswajają język: poprzez znaczenie, składnię i gramatykę (co było wówczas powszechnym podejściem). Jak to później ujęła Jelinek: „Samoloty nie trzepoczą skrzydłami”⁹

Te oparte na danych podejścia ułatwiły również postęp, który miał tyle samo wspólnego ze współpracą i odpowiedzialnością w branży, co z indywidualnymi momentami eureki. Wraz z rosnącą popularnością modeli statystycznych, dziedzina ASR zaczęła skupiać się wokół zestawu testów, które zapewniłyby znormalizowany punkt odniesienia do porównań. Było to dodatkowo wspierane przez udostępnienie wspólnych zbiorów danych: dużych korpusów danych, które badacze mogli wykorzystywać do szkolenia i testowania swoich modeli.

Innymi słowy: w końcu istniał (niedoskonały) sposób na zmierzenie i porównanie sukcesu.

A Piercing Freeze

Progress Continues

The ’80s: Markovs and More

Dodaj komentarz Anuluj pisanie odpowiedzi