En kort historie om ASR: Automatisk talegenkendelse

Descript er stolt af at være en del af en ny generation af kreativ software, der er muliggjort af de seneste fremskridt inden for automatisk talegenkendelse (ASR). Det er en spændende tid: teknologien har for nylig overskredet en tærskel, hvor den kan bytte sit langvarige løfte ud med bemærkelsesværdig anvendelighed, og den bliver kun bedre.

Dette øjeblik har været længe undervejs. Teknologien bag talegenkendelse har været under udvikling i over et halvt århundrede og har gennemgået flere perioder med intense løfter – og skuffelser. Så hvad har ændret sig for at gøre ASR levedygtig i kommercielle applikationer? Og hvad præcist kunne disse systemer udrette, længe før nogen af os havde hørt om Siri?

Historien om talegenkendelse handler lige så meget om anvendelsen af forskellige tilgange som om udviklingen af den rå teknologi, selv om de to ting er uløseligt forbundet. I løbet af årtier fandt forskerne på utallige måder at dissekere sprog på: efter lyde, efter struktur – og med statistik.

Menneskelig interesse for at genkende og syntetisere tale går flere hundrede år tilbage (i hvert fald!) – men det var først i midten af det 20. århundrede, at vores forfædre byggede noget, der kunne genkendes som ASR.

Et af de tidligste projekter var en “digit recognizer” kaldet Audrey, som blev skabt af forskere på Bell Laboratories i 1952. Audrey kunne genkende talte tal ved at lede efter lydfingeraftryk kaldet formanter¹ – de destillerede essenser af lyde.

I 1960’erne udviklede IBM Shoebox – et system, der kunne genkende tal og aritmetiske kommandoer som “plus” og “total”. Endnu bedre, Shoebox kunne sende et matematisk problem videre til en regnemaskine, som beregnede og udskrev svaret².

1961 – En demonstration af IBM’s Shoebox

I mellemtiden byggede forskere i Japan hardware, der kunne genkende talens bestanddele som f.eks. vokaler; andre systemer kunne vurdere talens struktur for at finde ud af, hvor et ord kunne ende. Og et hold på University College i England kunne genkende 4 vokaler og 9 konsonanter ved at analysere fonemer, dvs. de enkelte lyde i et sprog¹.

Men selv om området tog gradvise skridt fremad, var det ikke nødvendigvis klart, hvor vejen var på vej hen. Og så: katastrofe.

Oktober 1969 – The Journal of the Acoustical Society of America

A Piercing Freeze

Det afgørende vendepunkt kom i form af et brev skrevet af John R. Pierce i 1969.

Pierce havde for længst etableret sig som en ingeniør af international anseelse; blandt andre bedrifter opfandt han ordet transistor (nu allestedsnærværende inden for ingeniørvidenskab) og var med til at opsende Echo I, den allerførste kommunikationssatellit nogensinde. I 1969 var han leder af Bell Labs, som havde investeret massivt i udviklingen af talegenkendelse.

I et åbent brev³, der blev offentliggjort i The Journal of the Acoustical Society of America, redegjorde Pierce for sine bekymringer. Med henvisning til et “frodigt” finansieringsmiljø i kølvandet på Anden Verdenskrig og Sputnik og den manglende ansvarlighed i forbindelse hermed, formanede Pierce feltet for dets mangel på videnskabelig stringens og hævdede, at der foregik for mange vilde eksperimenter:

“Vi tror alle på, at en videnskab om tale er mulig, på trods af manglen på folk, der opfører sig som videnskabsmænd, og på resultater, der ligner videnskab.” – J.R. Pierce, 1969

Pierce satte sin arbejdsgivers penge i spil: han definansierede Bells ASR-programmer, som først ville blive genindført, efter at han havde sagt op i 1971.

Progress Continues

Der var heldigvis mere optimisme andre steder. I begyndelsen af 1970’erne finansierede det amerikanske forsvarsministeriums ARPA (det agentur, der nu er kendt som DARPA) et femårigt program kaldet Speech Understanding Research (forskning i talforståelse). Dette førte til oprettelsen af flere nye ASR-systemer, hvoraf det mest vellykkede var Carnegie Mellon University’s Harpy, som kunne genkende lidt over 1000 ord i 1976.

1976 -CMU’s Harpy Speech Recognition System

I mellemtiden skubbede indsatsen fra IBM og AT&T’s Bell Laboratories teknologien i retning af mulige kommercielle anvendelser. IBM prioriterede taletransskription i forbindelse med kontorkorrespondance, og Bell var optaget af “kommando- og kontrolscenarier”: forløberne for den stemmekopiering og de automatiserede telefontræer, vi kender i dag¹.

På trods af disse fremskridt var ASR i slutningen af 1970’erne stadig langt fra at være levedygtig til andet end meget specifikke brugssituationer.

80’erne: Markovs og mere

Et vigtigt vendepunkt kom med udbredelsen af skjulte Markov-modeller (HMM’er) i midten af 1980’erne. Denne tilgang repræsenterede et betydeligt skift “fra simple mønstergenkendelsesmetoder baseret på skabeloner og en spektral afstandsmåling til en statistisk metode til talebehandling”⁴ – hvilket betød et spring fremad med hensyn til nøjagtighed.

En stor del af forbedringen af talegenkendelsessystemer siden slutningen af 1960’erne skyldes kraften i denne statistiske tilgang, kombineret med de fremskridt inden for computerteknologi, der var nødvendige for at implementere HMM’er.⁵

HMM’er tog branchen med storm – men de var ikke nogen succes fra den ene dag til den anden. Jim Baker anvendte dem først på talegenkendelse i begyndelsen af 1970’erne på CMU, og selve modellerne var blevet beskrevet af Leonard E. Baum i 60’erne. Det var først i 1980, da Jack Ferguson holdt en række opklarende foredrag på Institute for Defense Analyses, at teknikken begyndte at få større udbredelse⁴.

Succesen med HMM’er bekræftede Frederick Jelineks arbejde på IBM’s Watson Research Center, som siden begyndelsen af 1970’erne havde slået til lyd for brugen af statistiske modeller til at fortolke tale i stedet for at forsøge at få computere til at efterligne den måde, hvorpå mennesker fordøjer sprog: gennem betydning, syntaks og grammatik (en almindelig tilgang på det tidspunkt). Som Jelinek senere udtrykte det: “Disse datadrevne tilgange gjorde det også lettere at gøre fremskridt, som havde lige så meget at gøre med samarbejde og ansvarlighed i branchen som med individuelle eureka-øjeblikke. Med den stigende popularitet af statistiske modeller begyndte ASR-feltet at samle sig om en række tests, der kunne give et standardiseret benchmark at sammenligne med. Dette blev yderligere opmuntret af frigivelsen af fælles datasæt: store korpusser af data, som forskerne kunne bruge til at træne og teste deres modeller på.

Med andre ord: endelig var der en (ufuldkommen) måde at måle og sammenligne succes på.

A Piercing Freeze

Progress Continues

80’erne: Markovs og mere

Skriv et svar Annuller svar