Az ASR rövid története: automatikus beszédfelismerés

A Descript büszke arra, hogy az automatikus beszédfelismerés (ASR) legújabb fejlesztései által lehetővé tett kreatív szoftverek új generációjának része. Izgalmas időket élünk: a technológia nemrégiben átlépett egy olyan küszöböt, amely hosszú távú ígéretét figyelemre méltó hasznosságra cseréli, és csak egyre jobb lesz.

Ez a pillanat már régóta váratott magára. A beszédfelismerés mögött álló technológia már több mint fél évszázada fejlesztés alatt áll, és számos ígéretes – és csalódást hozó – időszakon ment keresztül. Mi változott tehát, hogy az ASR kereskedelmi alkalmazásokban is életképessé vált? És pontosan mire voltak képesek ezek a rendszerek, jóval azelőtt, hogy bármelyikünk is hallott volna a Siri nevéről?

A beszédfelismerés története legalább annyira szól a különböző megközelítések alkalmazásáról, mint a nyers technológia fejlődéséről, bár a kettő elválaszthatatlanul összefügg. Évtizedek alatt a kutatók számtalan módot találtak ki a nyelv felbontására: hangok szerint, szerkezet szerint – és statisztikákkal.

A beszéd felismerése és szintetizálása iránti emberi érdeklődés több száz évre nyúlik vissza (legalábbis!) – de csak a 20. század közepén építettek elődeink valami ASR-ként felismerhetőt.

A legkorábbi projektek között volt az Audrey nevű “számfelismerő”, amelyet a Bell Laboratories kutatói 1952-ben készítettek. Az Audrey úgy tudta felismerni a beszélt számjegyeket, hogy a hangok formants¹ nevű hangujjlenyomatát – a hangok desztillált esszenciáját – kereste.

A hatvanas években az IBM kifejlesztette a Shoeboxot – egy olyan rendszert, amely felismerte a számjegyeket és az olyan aritmetikai parancsokat, mint a “plusz” és az “összesen”. Még jobb, hogy a Shoebox képes volt átadni a matematikai feladatot egy összeadógépnek, amely kiszámította és kinyomtatta a választ².

1961 – Az IBM Shoebox bemutatója

Aközben japán kutatók olyan hardvert építettek, amely képes volt felismerni a beszéd alkotóelemeit, például a magánhangzókat; más rendszerek kiértékelték a beszéd szerkezetét, hogy kitalálják, hol végződhet egy szó. Az angliai University College egy csapata pedig 4 magánhangzót és 9 mássalhangzót tudott felismerni a fonémák, azaz a nyelv különálló hangjai¹ elemzésével.

De miközben a terület apró lépésekkel haladt előre, nem volt feltétlenül világos, merre vezet az út. És akkor: katasztrófa.

Október 1969 – The Journal of the Acoustical Society of America

A Piercing Freeze

A fordulópont egy levél formájában érkezett, amelyet John R. John R. Pierce 1969-ben.

Pierce már régóta nemzetközi hírű mérnöknek számított; többek között ő alkotta meg a tranzisztor szót (amely ma már mindenütt jelen van a műszaki életben), és segített elindítani az Echo I-et, a legelső kommunikációs műholdat. 1969-ben már a Bell Labs vezetője volt, amely nagymértékben befektetett a beszédfelismerés fejlesztésébe.

A The Journal of the Acoustical Society of America című folyóiratban közzétett nyílt levelében Pierce kifejtette aggályait. A második világháborút és a Szputnyikot követő “buja” finanszírozási környezetre és annak elszámoltathatóságának hiányára hivatkozva Pierce elmarasztalta a területet a tudományos szigor hiánya miatt, és azt állította, hogy túl sok vad kísérletezés folyik:

“Mindannyian hiszünk abban, hogy a beszéd tudománya lehetséges, annak ellenére, hogy a területen kevés a tudósként viselkedő ember, és kevés a tudománynak látszó eredmény”. – J. R. Pierce, 1969

Pierce a munkaadója pénzét a szája elé tette: kivette a Bell ASR-programjait, amelyeket csak 1971-es lemondása után állítottak vissza.

A haladás folytatódik

Hála Istennek, máshol több volt az optimizmus. Az 1970-es évek elején az Egyesült Államok Védelmi Minisztériumának ARPA (a ma DARPA néven ismert ügynökség) egy ötéves programot finanszírozott beszédmegértési kutatás néven. Ez több új ASR-rendszer létrehozásához vezetett, amelyek közül a legsikeresebb a Carnegie Mellon Egyetem Harpy-ja volt, amely 1976-ra valamivel több mint 1000 szót tudott felismerni.

1976 -CMU’s Harpy Speech Recognition System

Eközben az IBM és az AT&T’s Bell Laboratories erőfeszítései a lehetséges kereskedelmi alkalmazások felé terelték a technológiát. Az IBM a beszédátírást az irodai levelezéssel összefüggésben helyezte előtérbe, a Bell pedig a “parancs és vezérlés” forgatókönyvekkel foglalkozott: a ma ismert hangtárcsázás és automatizált telefonfák előfutáraival¹.

Ezek az előrelépések ellenére az 1970-es évek végére az ASR még mindig messze volt attól, hogy a nagyon speciális felhasználási eseteken kívül bármi másra is használható legyen.

A 80-as évek: Markov és még több

A 80-as évek közepén kulcsfontosságú fordulópontot jelentett a rejtett Markov-modellek (HMM) népszerűsítése. Ez a megközelítés jelentős elmozdulást jelentett “a sablonokon és spektrális távolságmérésen alapuló egyszerű mintafelismerési módszerektől a beszédfeldolgozás statisztikai módszere felé”⁴ – ami ugrásszerű fejlődést jelentett a pontosságban.

A beszédfelismerő rendszerekben az 1960-as évek vége óta bekövetkezett javulás nagy része ennek a statisztikai megközelítésnek az erejének köszönhető, a HMM-ek megvalósításához szükséges számítógépes technológia fejlődésével párosulva.⁵

A HMM-ek viharszerűen meghódították az iparágat – de nem egyik napról a másikra arattak sikert. Jim Baker alkalmazta őket először beszédfelismerésre az 1970-es évek elején a CMU-n, magukat a modelleket pedig Leonard E. Baum írta le a 60-as években. A technika csak 1980-ban kezdett szélesebb körben elterjedni, amikor Jack Ferguson tartott egy sor tanulságos előadást a Védelmi Elemzések Intézetében.

A HMM-ek sikere igazolta Frederick Jelinek munkáját az IBM Watson Kutatóközpontjában, aki az 1970-es évek eleje óta a statisztikai modellek használatát szorgalmazta a beszéd értelmezéséhez, ahelyett, hogy a számítógépeket arra próbálták volna rávenni, hogy utánozzák azt, ahogyan az emberek a nyelvet emésztik: a jelentés, a szintaxis és a nyelvtan segítségével (ez volt akkoriban az általános megközelítés). Ahogy Jelinek később fogalmazott: “⁹

Ezek az adatvezérelt megközelítések olyan előrelépést is lehetővé tettek, amelynek legalább annyira köze volt az iparági együttműködéshez és elszámoltathatósághoz, mint az egyéni heuréka-pillanatokhoz. A statisztikai modellek növekvő népszerűségével az ASR-szakma egy olyan tesztcsomag köré kezdett tömörülni, amely szabványosított viszonyítási alapot biztosítana az összehasonlításhoz. Ezt tovább ösztönözte a megosztott adathalmazok kiadása: nagy adattömegek, amelyeket a kutatók használhattak modelljeik képzéséhez és teszteléséhez.

Más szóval: végre volt egy (tökéletlen) módja a siker mérésének és összehasonlításának.

A Piercing Freeze

A haladás folytatódik

A 80-as évek: Markov és még több

Vélemény, hozzászólás? Kilépés a válaszból