Descript este mândru să facă parte dintr-o nouă generație de software creativ permisă de progresele recente în recunoașterea automată a vorbirii (ASR). Este un moment incitant: tehnologia a trecut recent un prag care o vede schimbându-și promisiunea de lungă durată cu o utilitate remarcabilă, și devine din ce în ce mai bună.
Acest moment a fost așteptat de mult timp. Tehnologia din spatele recunoașterii vorbirii este în dezvoltare de peste o jumătate de secol, trecând prin mai multe perioade de promisiuni intense – și dezamăgiri. Așadar, ce s-a schimbat pentru ca ASR să devină viabil în aplicațiile comerciale? Și ce anume puteau realiza aceste sisteme, cu mult înainte ca oricare dintre noi să fi auzit de Siri?
Povestea recunoașterii vorbirii se referă la fel de mult la aplicarea unor abordări diferite ca și la dezvoltarea tehnologiei brute, deși cele două sunt inextricabil legate. De-a lungul unei perioade de zeci de ani, cercetătorii aveau să conceapă nenumărate moduri de a diseca limbajul: după sunete, după structură – și cu ajutorul statisticilor.
Interesul uman pentru recunoașterea și sintetizarea vorbirii datează de sute de ani (cel puțin!) – dar abia la mijlocul secolului al XX-lea înaintașii noștri au construit ceva recognoscibil ca ASR.
Printre cele mai timpurii proiecte se numără un „digit recognizer” numit Audrey, creat de cercetătorii de la Bell Laboratories în 1952. Audrey putea recunoaște cifrele numerice vorbite căutând amprente audio numite formanți¹ – esențele distilate ale sunetelor.
În anii 1960, IBM a dezvoltat Shoebox – un sistem care putea recunoaște cifrele și comenzile aritmetice precum „plus” și „total”. Și mai bine, Shoebox putea transmite problema de matematică unei mașini de adunat, care calcula și imprima răspunsul².
Între timp, cercetătorii din Japonia au construit hardware care putea recunoaște părțile constitutive ale vorbirii, cum ar fi vocalele; alte sisteme puteau evalua structura vorbirii pentru a-și da seama unde s-ar putea termina un cuvânt. Iar o echipă de la University College din Anglia a putut recunoaște 4 vocale și 9 consoane prin analiza fonemelor, sunetele discrete ale unei limbi¹.
Dar, în timp ce domeniul făcea pași înainte progresivi, nu era neapărat clar încotro se îndrepta. Și apoi: dezastru.