Una breve storia di ASR: Riconoscimento Automatico del Discorso

Descript è orgoglioso di essere parte di una nuova generazione di software creativo abilitato dai recenti progressi nel riconoscimento automatico del discorso (ASR). È un momento eccitante: la tecnologia ha recentemente attraversato una soglia che la vede scambiare la sua promessa di lunga data con una notevole utilità, e sta solo migliorando.

Questo momento è stato a lungo atteso. La tecnologia dietro il riconoscimento vocale è stata in sviluppo per oltre mezzo secolo, passando attraverso diversi periodi di intensa promessa – e delusione. Quindi cosa è cambiato per rendere l’ASR praticabile nelle applicazioni commerciali? E cosa potevano fare esattamente questi sistemi, molto prima che qualcuno di noi avesse sentito parlare di Siri?

La storia del riconoscimento vocale riguarda tanto l’applicazione di diversi approcci quanto lo sviluppo della tecnologia grezza, anche se le due cose sono inestricabilmente legate. In un periodo di decenni, i ricercatori avrebbero concepito una miriade di modi per sezionare il linguaggio: per suoni, per struttura – e con le statistiche.

L’interesse umano nel riconoscere e sintetizzare il discorso risale a centinaia di anni fa (almeno!) – ma non è stato fino alla metà del 20° secolo che i nostri antenati hanno costruito qualcosa di riconoscibile come ASR.

1961 – IBM Shoebox

Tra i primi progetti c’era un “digit recognizer” chiamato Audrey, creato dai ricercatori dei Bell Laboratories nel 1952. Audrey poteva riconoscere cifre numeriche parlate cercando impronte audio chiamate formanti¹ – le essenze distillate dei suoni.

Negli anni ’60, IBM sviluppò Shoebox – un sistema che poteva riconoscere cifre e comandi aritmetici come “più” e “totale”. Meglio ancora, Shoebox poteva passare il problema matematico a una macchina addizionatrice, che avrebbe calcolato e stampato la risposta².

1961 – Una dimostrazione di Shoebox di IBM

Nel frattempo i ricercatori in Giappone costruivano hardware che poteva riconoscere le parti costituenti del discorso come le vocali; altri sistemi potevano valutare la struttura del discorso per capire dove una parola potesse finire. E un team dell’University College in Inghilterra poteva riconoscere 4 vocali e 9 consonanti analizzando i fonemi, i suoni discreti di una lingua¹.

Ma mentre il campo stava facendo passi avanti incrementali, non era necessariamente chiaro dove il percorso era diretto. E poi: il disastro.

Ottobre 1969 – The Journal of the Acoustical Society of America

A Piercing Freeze

La svolta avvenne sotto forma di una lettera scritta da John R. Pierce nel 1969.

Pierce si era da tempo affermato come un ingegnere di fama internazionale; tra gli altri successi aveva coniato la parola transistor (ora onnipresente in ingegneria) e aveva aiutato a lanciare Echo I, il primo satellite di comunicazione. Nel 1969 era un dirigente dei Bell Labs, che aveva investito molto nello sviluppo del riconoscimento vocale.

In una lettera aperta³ pubblicata nel Journal of the Acoustical Society of America, Pierce esponeva le sue preoccupazioni. Citando un ambiente di finanziamento “lussureggiante” all’indomani della seconda guerra mondiale e dello Sputnik, e la mancanza di responsabilità, Pierce ammonì il campo per la sua mancanza di rigore scientifico, affermando che c’era troppa sperimentazione selvaggia in corso:

“Noi tutti crediamo che una scienza del discorso sia possibile, nonostante la scarsità nel campo di persone che si comportano come scienziati e di risultati che sembrano scienza.” – J.R. Pierce, 1969

Pierce mise i soldi del suo datore di lavoro dove era la sua bocca: defundò i programmi ASR della Bell, che non sarebbero stati ripristinati fino a dopo le sue dimissioni nel 1971.

Il progresso continua

Per fortuna c’era più ottimismo altrove. Nei primi anni ’70, l’ARPA del Dipartimento della Difesa degli Stati Uniti (l’agenzia ora conosciuta come DARPA) finanziò un programma quinquennale chiamato Speech Understanding Research. Questo portò alla creazione di diversi nuovi sistemi ASR, il più riuscito dei quali fu Harpy della Carnegie Mellon University, che poteva riconoscere poco più di 1000 parole nel 1976.

1976 – Sistema di riconoscimento vocale Harpy della CMU

Nel frattempo gli sforzi della IBM e dei Bell Laboratories della AT&T spinsero la tecnologia verso possibili applicazioni commerciali. IBM dava la priorità alla trascrizione vocale nel contesto della corrispondenza d’ufficio, e Bell era interessata a scenari di ‘comando e controllo’: i precursori della composizione vocale e degli alberi telefonici automatizzati che conosciamo oggi¹.

Nonostante questi progressi, alla fine degli anni ’70 l’ASR era ancora lontano dall’essere praticabile per qualsiasi cosa che non fosse un caso d’uso altamente specifico.

Questo fa male anche alla mia testa.

Gli anni ’80: Markovs and More

Un punto di svolta fondamentale è arrivato con la divulgazione dei modelli di Markov nascosti (HMM) a metà degli anni ’80. Questo approccio ha rappresentato uno spostamento significativo “da semplici metodi di riconoscimento di modelli, basati su modelli e una misura di distanza spettrale, a un metodo statistico per l’elaborazione del discorso”⁴, che si è tradotto in un balzo in avanti nella precisione.

Gran parte del miglioramento dei sistemi di riconoscimento vocale dalla fine degli anni ’60 è dovuto alla potenza di questo approccio statistico, insieme ai progressi della tecnologia informatica necessaria per implementare le HMM.⁵

Le HMM hanno preso d’assalto l’industria – ma non sono state un successo immediato. Jim Baker li applicò per la prima volta al riconoscimento vocale nei primi anni ’70 alla CMU, e i modelli stessi erano stati descritti da Leonard E. Baum negli anni ’60. Fu solo nel 1980, quando Jack Ferguson tenne una serie di lezioni illuminanti all’Istituto per le analisi della difesa, che la tecnica cominciò a diffondersi più ampiamente⁴.

Il successo delle HMM convalidò il lavoro di Frederick Jelinek al Watson Research Center dell’IBM, che fin dai primi anni ’70 aveva sostenuto l’uso di modelli statistici per interpretare il discorso, piuttosto che cercare di far imitare ai computer il modo in cui gli umani digeriscono il linguaggio: attraverso il significato, la sintassi e la grammatica (un approccio comune a quel tempo). Come Jelinek disse più tardi: “Gli aeroplani non sbattono le ali.”⁹

Questi approcci guidati dai dati hanno anche facilitato il progresso che aveva tanto a che fare con la collaborazione e la responsabilità dell’industria quanto con i momenti eureka individuali. Con la crescente popolarità dei modelli statistici, il campo ASR ha iniziato a coalizzarsi intorno a una serie di test che avrebbero fornito un punto di riferimento standardizzato con cui confrontarsi. Questo fu ulteriormente incoraggiato dal rilascio di set di dati condivisi: grandi corpus di dati che i ricercatori potevano usare per addestrare e testare i loro modelli.

In altre parole: finalmente c’era un modo (imperfetto) per misurare e confrontare il successo.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.