En kort historia om ASR: Automatisk taligenkänning

Descript är stolt över att vara en del av en ny generation av kreativ programvara som möjliggörs av de senaste framstegen inom automatisk taligenkänning (ASR). Det är en spännande tid: tekniken har nyligen passerat en tröskel som gör att den kan byta ut sitt långvariga löfte mot en anmärkningsvärd användbarhet, och den blir bara bättre.

Detta ögonblick har varit på gång länge. Tekniken bakom taligenkänning har utvecklats i över ett halvt sekel och genomgått flera perioder av intensiva löften – och besvikelser. Så vad förändrades för att göra ASR gångbart i kommersiella tillämpningar? Och vad exakt kunde dessa system åstadkomma, långt innan någon av oss hade hört talas om Siri?

Historien om taligenkänning handlar lika mycket om tillämpningen av olika tillvägagångssätt som om utvecklingen av rå teknik, även om de två är oupplösligt förbundna. Under flera decennier har forskarna funderat på otaliga sätt att dissekera språket: genom ljud, genom struktur – och med hjälp av statistik.

Människans intresse för att känna igen och syntetisera tal går flera hundra år tillbaka i tiden (åtminstone!) – men det var inte förrän i mitten av 1900-talet som våra förfäder byggde något som kan kännas igen som ASR.

1961 – IBM Shoebox

En av de tidigaste projekten var en ”sifferigenkännaren” som kallades Audrey och som skapades av forskare vid Bell Laboratories 1952. Audrey kunde känna igen talade siffror genom att leta efter ljudfingeravtryck som kallas formanter¹ – de destillerade essenserna av ljud.

På 1960-talet utvecklade IBM Shoebox – ett system som kunde känna igen siffror och aritmetiska kommandon som ”plus” och ”total”. Ännu bättre var att Shoebox kunde skicka ett matematiskt problem till en additionsmaskin som beräknade och skrev ut svaret².

1961 – En demonstration av IBM:s Shoebox

Under tiden byggde forskare i Japan hårdvara som kunde känna igen de ingående delarna av talet, t.ex. vokaler, och andra system kunde utvärdera strukturen i talet för att räkna ut var ett ord kan sluta. Och ett team vid University College i England kunde känna igen 4 vokaler och 9 konsonanter genom att analysera fonem, de enskilda ljuden i ett språk¹.

Men även om området tog successiva steg framåt var det inte nödvändigtvis klart vart vägen var på väg. Och sedan: katastrof.

Oktober 1969 – The Journal of the Acoustical Society of America

A Piercing Freeze

Vändpunkten kom i form av ett brev som John R. Pierce 1969.

Pierce hade sedan länge etablerat sig som en internationellt känd ingenjör; bland annat hade han myntat ordet transistor (numera allestädes närvarande inom ingenjörsvetenskapen) och hjälpt till att lansera Echo I, den första kommunikationssatelliten någonsin. År 1969 var han chef för Bell Labs, som hade gjort stora investeringar i utvecklingen av taligenkänning.

I ett öppet brev³ som publicerades i The Journal of the Acoustical Society of America, redogjorde Pierce för sina farhågor. Med hänvisning till den ”frodiga” finansieringsmiljön i efterdyningarna av andra världskriget och Sputnik, och bristen på ansvarsskyldighet, förmanade Pierce området för dess brist på vetenskaplig stringens och hävdade att det pågick för mycket vilt experimenterande:

”Vi tror alla att det är möjligt att skapa en vetenskap om tal, trots att det är ont om människor som beter sig som vetenskapsmän och om resultat som ser ut som vetenskap”. – J.R. Pierce, 1969

Pierce satte sin arbetsgivares pengar i verket: han avfinansierade Bells ASR-program, som inte skulle återinföras förrän efter att han avgick 1971.

Framstegen fortsätter

Troligtvis fanns det mer optimism på andra håll. I början av 1970-talet finansierade det amerikanska försvarsdepartementets ARPA (det organ som numera heter DARPA) ett femårigt program kallat Speech Understanding Research. Detta ledde till att flera nya ASR-system skapades, varav det mest framgångsrika var Carnegie Mellon Universitys Harpy, som 1976 kunde känna igen drygt 1 000 ord.

1976 -CMUs Harpy Speech Recognition System

Under tiden drev insatser från IBM och AT&T:s Bell Laboratories tekniken mot möjliga kommersiella tillämpningar. IBM prioriterade taltranskription i samband med kontorskorrespondens, och Bell var intresserad av ”kommando- och kontrollscenarier”: föregångarna till röstuppringning och automatiserade telefonträd som vi känner till i dag¹.

Trots dessa framsteg var ASR i slutet av 1970-talet fortfarande långt ifrån att vara genomförbart för något annat än mycket specifika användningsområden.

Det här gör ont i huvudet på mig också.

Årtiotalet: Markovs och mer

En viktig vändpunkt var populariseringen av Hidden Markov Models (HMMs) i mitten av 1980-talet. Detta tillvägagångssätt innebar ett betydande skifte ”från enkla mönsterigenkänningsmetoder, baserade på mallar och ett spektralt avståndsmått, till en statistisk metod för talbearbetning”⁴ – vilket innebar ett språng framåt i noggrannhet.

En stor del av förbättringen av systemen för taligenkänning sedan slutet av 1960-talet beror på kraften i detta statistiska tillvägagångssätt, i kombination med de framsteg inom datortekniken som var nödvändiga för att implementera HMM:er.⁵

HMM:erna tog branschen med storm – men de var ingen succé över en natt. Jim Baker tillämpade dem först på taligenkänning i början av 1970-talet vid CMU, och själva modellerna hade beskrivits av Leonard E. Baum på 60-talet. Det var inte förrän 1980, när Jack Ferguson höll en rad belysande föreläsningar vid Institute for Defense Analyses, som tekniken började få större spridning⁴.

HMM:s framgångar bekräftade det arbete som Frederick Jelinek vid IBM:s Watson Research Center utförde, som sedan början av 1970-talet hade förespråkat användningen av statistiska modeller för att tolka tal, i stället för att försöka få datorerna att efterlikna det sätt på vilket människor smälter språket: genom innebörd, syntax och grammatik (ett vanligt tillvägagångssätt på den tiden). Som Jelinek senare uttryckte det: ”Dessa datadrivna metoder underlättade också framsteg som hade lika mycket att göra med samarbete och ansvarstagande inom branschen som med enskilda eureka-ögonblick. Med den ökande populariteten för statistiska modeller började ASR-fältet samlas kring en uppsättning tester som skulle ge ett standardiserat riktmärke att jämföra med. Detta uppmuntrades ytterligare av att man släppte gemensamma datamängder: stora datakorpusar som forskarna kunde använda för att träna och testa sina modeller på.

Med andra ord: äntligen fanns det ett (ofullständigt) sätt att mäta och jämföra framgångar.

Lämna ett svar

Din e-postadress kommer inte publiceras.