Krátká historie ASR: Automatické rozpoznávání řeči

Descript je hrdý na to, že je součástí nové generace kreativního softwaru, který je umožněn nedávným pokrokem v oblasti automatického rozpoznávání řeči (ASR). Je to vzrušující doba: tato technologie nedávno překročila práh, díky němuž vyměnila svůj dlouholetý příslib za pozoruhodnou užitečnost, a je stále lepší.

Tento okamžik přichází už dlouho. Technologie rozpoznávání řeči se vyvíjí již více než půl století a prošla několika obdobími intenzivních příslibů – a zklamání. Co se tedy změnilo, aby se ASR stalo životaschopným v komerčních aplikacích? A co přesně tyto systémy dokázaly dávno předtím, než kdokoli z nás slyšel o Siri?“

Příběh rozpoznávání řeči je stejně tak o aplikaci různých přístupů jako o vývoji surové technologie, ačkoli obojí spolu neoddělitelně souvisí. V průběhu několika desetiletí by vědci vymysleli nesčetné způsoby, jak rozebírat jazyk: podle zvuků, podle struktury – a pomocí statistiky.

Zájem lidí o rozpoznávání a syntézu řeči se datuje stovky let (přinejmenším!) – ale teprve v polovině 20. století naši předkové vytvořili něco, co se dá označit jako ASR.

1961 – IBM Shoebox

Mezi prvními projekty byl „rozpoznávač číslic“ Audrey, vytvořený výzkumníky v Bellových laboratořích v roce 1952. Audrey dokázal rozpoznávat vyslovené číselné číslice pomocí hledání zvukových otisků zvaných formanty¹ – vydestilované esence zvuků.

V 60. letech 20. století vyvinula společnost IBM Shoebox – systém, který dokázal rozpoznávat číslice a aritmetické příkazy jako „plus“ a „celkem“. A co víc, Shoebox dokázal předat matematický problém sčítacímu stroji, který vypočítal a vytiskl odpověď².

1961 – Ukázka systému IBM Shoebox

Mezitím výzkumníci v Japonsku sestrojili hardware, který dokázal rozpoznat složky řeči, jako jsou samohlásky; jiné systémy dokázaly vyhodnotit strukturu řeči a zjistit, kde by slovo mohlo končit. A tým z University College v Anglii dokázal rozpoznat 4 samohlásky a 9 souhlásek analýzou fonémů, tedy jednotlivých zvuků jazyka¹.

Ačkoli však obor dělal postupné kroky vpřed, nebylo nutně jasné, kam cesta směřuje. A pak: katastrofa.

Říjen 1969 – The Journal of the Acoustical Society of America

A Piercing Freeze

Zlom přišel v podobě dopisu, který napsal John R. Pierce v roce 1969.

Pierce se již dávno etabloval jako inženýr mezinárodního věhlasu; kromě jiných úspěchů vymyslel slovo tranzistor (dnes v technice všudypřítomné) a pomáhal vypustit Echo I, vůbec první komunikační družici. V roce 1969 už byl vedoucím pracovníkem Bellových laboratoří, které rozsáhle investovaly do vývoje rozpoznávání řeči.

V otevřeném dopise³ zveřejněném v časopise The Journal of the Acoustical Society of America Pierce vyložil své obavy. S odvoláním na „bujaré“ prostředí financování po druhé světové válce a Sputniku a nedostatek odpovědnosti z něj Pierce napomínal obor za nedostatek vědecké přísnosti a tvrdil, že se příliš mnoho divoce experimentuje:

„Všichni věříme, že věda o řeči je možná, navzdory tomu, že v oboru je nedostatek lidí, kteří se chovají jako vědci, a výsledků, které vypadají jako věda.“

„Všichni věříme, že věda o řeči je možná. – J. R. Pierce, 1969

Pierce vsadil na peníze svého zaměstnavatele: zrušil Bellovy programy ASR, které budou obnoveny až po jeho rezignaci v roce 1971.

Pokrok pokračuje

Naštěstí bylo více optimismu jinde. Počátkem sedmdesátých let financovala agentura ARPA amerického ministerstva obrany (agentura dnes známá jako DARPA) pětiletý program nazvaný Výzkum porozumění řeči. Ten vedl k vytvoření několika nových systémů ASR, z nichž nejúspěšnější byl Harpy Carnegie Mellon University, který do roku 1976 dokázal rozpoznat něco přes 1000 slov.

1976 -CMU’s Harpy Speech Recognition System

Mezitím snahy společností IBM a AT&T’s Bell Laboratories posunuly technologii k možným komerčním aplikacím. IBM upřednostňovala přepis řeči v kontextu kancelářské korespondence a Bell se zabýval scénáři „příkazů a řízení“: předchůdci hlasového vytáčení a automatických telefonních stromů, které známe dnes¹.

Přes tento pokrok byl ASR koncem 70. let stále ještě daleko od životaschopnosti pro cokoli jiného než pro vysoce specifické případy použití.

Z toho mě taky bolí hlava.

Osmdesátá léta: Markovové a další

Klíčový zlom nastal s popularizací skrytých markovovských modelů (HMM) v polovině 80. let. Tento přístup představoval významný posun „od jednoduchých metod rozpoznávání vzorů, založených na šablonách a míře spektrální vzdálenosti, ke statistické metodě zpracování řeči“⁴ – což se projevilo skokovým zvýšením přesnosti.

Velká část zlepšení systémů rozpoznávání řeči od konce 60. let 20. století je způsobena silou tohoto statistického přístupu ve spojení s pokrokem v počítačové technologii, který je nezbytný pro implementaci HMM.⁵

HMM vzaly průmysl útokem – ale nebyl to úspěch přes noc. Jim Baker je poprvé použil pro rozpoznávání řeči na počátku 70. let na CMU a samotné modely popsal Leonard E. Baum již v 60. letech. Teprve v roce 1980, kdy Jack Ferguson přednesl soubor poučných přednášek na Institutu pro obranné analýzy, se tato technika začala šířit ve větší míře⁴.

Úspěch HMM potvrdil práci Fredericka Jelinka ve Watsonově výzkumném středisku IBM, který od počátku 70. let prosazoval používání statistických modelů k interpretaci řeči namísto snahy přimět počítače, aby napodobovaly způsob, jakým člověk tráví jazyk: prostřednictvím významu, syntaxe a gramatiky (tehdy běžný přístup). Jelinek se později vyjádřil takto: „Letadla nemávají křídly.“⁹

Tyto přístupy založené na datech také usnadnily pokrok, který měl co do činění se spoluprací a odpovědností v odvětví stejně jako s individuálními heuréka momenty. S rostoucí popularitou statistických modelů se obor ASR začal sdružovat kolem souboru testů, které by poskytly standardizované měřítko pro porovnávání. To bylo dále podpořeno uvolněním sdílených datových sad: velkých korpusů dat, které mohli výzkumníci použít k trénování a testování svých modelů.

Jinými slovy: konečně existoval (nedokonalý) způsob, jak měřit a porovnávat úspěch.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.