Un scurt istoric al ASR: Recunoașterea automată a vorbirii

Descript este mândru să facă parte dintr-o nouă generație de software creativ permisă de progresele recente în recunoașterea automată a vorbirii (ASR). Este un moment incitant: tehnologia a trecut recent un prag care o vede schimbându-și promisiunea de lungă durată cu o utilitate remarcabilă, și devine din ce în ce mai bună.

Acest moment a fost așteptat de mult timp. Tehnologia din spatele recunoașterii vorbirii este în dezvoltare de peste o jumătate de secol, trecând prin mai multe perioade de promisiuni intense – și dezamăgiri. Așadar, ce s-a schimbat pentru ca ASR să devină viabil în aplicațiile comerciale? Și ce anume puteau realiza aceste sisteme, cu mult înainte ca oricare dintre noi să fi auzit de Siri?

Povestea recunoașterii vorbirii se referă la fel de mult la aplicarea unor abordări diferite ca și la dezvoltarea tehnologiei brute, deși cele două sunt inextricabil legate. De-a lungul unei perioade de zeci de ani, cercetătorii aveau să conceapă nenumărate moduri de a diseca limbajul: după sunete, după structură – și cu ajutorul statisticilor.

Interesul uman pentru recunoașterea și sintetizarea vorbirii datează de sute de ani (cel puțin!) – dar abia la mijlocul secolului al XX-lea înaintașii noștri au construit ceva recognoscibil ca ASR.

1961 – IBM Shoebox

Printre cele mai timpurii proiecte se numără un „digit recognizer” numit Audrey, creat de cercetătorii de la Bell Laboratories în 1952. Audrey putea recunoaște cifrele numerice vorbite căutând amprente audio numite formanți¹ – esențele distilate ale sunetelor.

În anii 1960, IBM a dezvoltat Shoebox – un sistem care putea recunoaște cifrele și comenzile aritmetice precum „plus” și „total”. Și mai bine, Shoebox putea transmite problema de matematică unei mașini de adunat, care calcula și imprima răspunsul².

1961 – O demonstrație a IBM Shoebox

Între timp, cercetătorii din Japonia au construit hardware care putea recunoaște părțile constitutive ale vorbirii, cum ar fi vocalele; alte sisteme puteau evalua structura vorbirii pentru a-și da seama unde s-ar putea termina un cuvânt. Iar o echipă de la University College din Anglia a putut recunoaște 4 vocale și 9 consoane prin analiza fonemelor, sunetele discrete ale unei limbi¹.

Dar, în timp ce domeniul făcea pași înainte progresivi, nu era neapărat clar încotro se îndrepta. Și apoi: dezastru.

Octombrie 1969 – The Journal of the Acoustical Society of America

Un îngheț pătrunzător

Punctul de cotitură a venit sub forma unei scrisori scrise de John R. Pierce în 1969.

Pierce se afirmase de mult timp ca inginer de renume internațional; printre alte realizări, el a inventat cuvântul tranzistor (acum omniprezent în inginerie) și a ajutat la lansarea Echo I, primul satelit de comunicații din istorie. În 1969 era director executiv la Bell Labs, care investise foarte mult în dezvoltarea recunoașterii vorbirii.

Într-o scrisoare deschisă³ publicată în The Journal of the Acoustical Society of America, Pierce și-a expus preocupările. Invocând un mediu de finanțare „luxuriant” în urma celui de-al Doilea Război Mondial și a Sputnikului și lipsa de responsabilitate a acestuia, Pierce a admonestat domeniul pentru lipsa de rigoare științifică, afirmând că se desfășurau prea multe experimente sălbatice:

„Cu toții credem că o știință a vorbirii este posibilă, în ciuda lipsei în domeniu a oamenilor care se comportă ca niște oameni de știință și a rezultatelor care să arate ca o știință.” – J.R. Pierce, 1969

Pierce a pus banii angajatorului său la bătaie: a desființat programele ASR ale Bell, care nu aveau să fie restabilite decât după ce a demisionat în 1971.

Progresul continuă

Din fericire, a existat mai mult optimism în altă parte. La începutul anilor 1970, ARPA a Departamentului de Apărare al SUA (agenția cunoscută acum sub numele de DARPA) a finanțat un program de cinci ani numit Speech Understanding Research. Acesta a dus la crearea mai multor sisteme ASR noi, dintre care cel mai de succes a fost Harpy al Universității Carnegie Mellon, care putea recunoaște puțin peste 1000 de cuvinte până în 1976.

1976 -CMU’s Harpy Speech Recognition System

Între timp, eforturile IBM și ale Laboratoarelor Bell AT&T au împins tehnologia spre posibile aplicații comerciale. IBM a prioritizat transcrierea vorbirii în contextul corespondenței de birou, iar Bell era preocupat de scenarii de „comandă și control”: precursorii apelării vocale și ai copacilor telefonici automatizați pe care îi cunoaștem astăzi¹.

În ciuda acestor progrese, până la sfârșitul anilor ’70 ASR era încă departe de a fi viabil pentru orice altceva decât pentru cazuri de utilizare foarte specifice.

Aceasta mă doare și pe mine la cap.

Anii ’80: Markovs and More

Un punct de cotitură cheie a venit odată cu popularizarea modelelor Markov ascunse (HMM) la mijlocul anilor ’80. Această abordare a reprezentat o schimbare semnificativă „de la metode simple de recunoaștere a tiparelor, bazate pe șabloane și pe o măsură a distanței spectrale, la o metodă statistică pentru procesarea vorbirii”⁴ – ceea ce s-a tradus printr-un salt înainte în ceea ce privește precizia.

O mare parte din îmbunătățirea sistemelor de recunoaștere a vorbirii de la sfârșitul anilor 1960 se datorează puterii acestei abordări statistice, cuplată cu progresele în tehnologia informatică necesare pentru a implementa HMM-urile.⁵

HMM-urile au luat cu asalt industria – dar nu au fost un succes peste noapte. Jim Baker le-a aplicat pentru prima dată la recunoașterea vorbirii la începutul anilor ’70 la CMU, iar modelele în sine fuseseră descrise de Leonard E. Baum în anii ’60. Abia în 1980, când Jack Ferguson a ținut un set de prelegeri lămuritoare la Institute for Defense Analyses, tehnica a început să se răspândească mai mult⁴.

Succesul HMM-urilor a validat activitatea lui Frederick Jelinek de la Centrul de Cercetare Watson de la IBM, care încă de la începutul anilor ’70 a pledat pentru utilizarea modelelor statistice pentru a interpreta vorbirea, mai degrabă decât să încerce să determine computerele să imite modul în care oamenii digeră limbajul: prin semnificație, sintaxă și gramatică (o abordare obișnuită la acea vreme). După cum a spus Jelinek mai târziu: „Avioanele nu bat din aripi.”⁹

Aceste abordări bazate pe date au facilitat, de asemenea, un progres care a avut la fel de mult de-a face cu colaborarea și responsabilitatea industriei ca și cu momentele de eureka individuale. Odată cu popularitatea crescândă a modelelor statistice, domeniul ASR a început să se coaguleze în jurul unei suite de teste care să ofere un punct de referință standardizat cu care să se compare. Acest lucru a fost încurajat și mai mult de publicarea unor seturi de date partajate: corpusuri mari de date pe care cercetătorii le puteau folosi pentru a-și antrena și testa modelele.

Cu alte cuvinte: în sfârșit, a existat o modalitate (imperfectă) de a măsura și compara succesul.

.

Lasă un răspuns

Adresa ta de email nu va fi publicată.