Een korte geschiedenis van ASR: Automatische Spraakherkenning

Descript is er trots op deel uit te maken van een nieuwe generatie creatieve software, mogelijk gemaakt door recente ontwikkelingen in automatische spraakherkenning (ASR). Het is een opwindende tijd: de technologie heeft onlangs een drempel overschreden waardoor het zijn langdurige belofte inruilt voor opmerkelijk nut, en het wordt alleen maar beter.

Dit moment heeft lang op zich laten wachten. De technologie achter spraakherkenning is in ontwikkeling geweest voor meer dan een halve eeuw, het doorlopen van verschillende periodes van intense belofte – en teleurstelling. Dus wat veranderde er om ASR levensvatbaar te maken in commerciële toepassingen? En wat konden deze systemen precies bereiken, lang voordat iemand van ons van Siri had gehoord?

Het verhaal van de spraakherkenning gaat evenzeer over de toepassing van verschillende benaderingen als over de ontwikkeling van ruwe technologie, hoewel de twee onlosmakelijk met elkaar verbonden zijn. Over een periode van tientallen jaren zouden onderzoekers talloze manieren bedenken om taal te ontleden: op klanken, op structuur – en met statistieken.

De menselijke belangstelling voor het herkennen en synthetiseren van spraak dateert van honderden jaren geleden (op zijn minst!) – maar pas in het midden van de 20e eeuw bouwden onze voorouders iets dat herkenbaar is als ASR.

Een van de vroegste projecten was een “cijferherkenner”, Audrey genaamd, die in 1952 door onderzoekers van Bell Laboratories werd ontwikkeld. Audrey kon gesproken numerieke cijfers herkennen door te zoeken naar auditieve vingerafdrukken, formanten¹ genaamd – de gedistilleerde essenties van geluiden.

In de jaren zestig ontwikkelde IBM Shoebox – een systeem dat cijfers en rekenkundige commando’s zoals “plus” en “totaal” kon herkennen. Beter nog, Shoebox kon het rekenprobleem doorgeven aan een optelmachine, die het antwoord uitrekende en afdrukte².

1961 – Een demonstratie van IBM’s Shoebox

Terwijl bouwden onderzoekers in Japan hardware die de samenstellende delen van spraak kon herkennen, zoals klinkers; andere systemen konden de structuur van spraak evalueren om uit te vinden waar een woord zou kunnen eindigen. En een team aan het University College in Engeland kon 4 klinkers en 9 medeklinkers herkennen door het analyseren van fonemen, de afzonderlijke klanken van een taal¹.

Maar terwijl het veld stapje voor stapje vooruit ging, was het niet noodzakelijkerwijs duidelijk waar de weg naar toe ging. En toen: een ramp.

October 1969 – The Journal of the Acoustical Society of America

A Piercing Freeze

Het keerpunt kwam in de vorm van een brief geschreven door John R. Pierce in 1969.

Pierce had zich allang gevestigd als een ingenieur met internationale faam; naast andere prestaties bedacht hij het woord transistor (nu alomtegenwoordig in de techniek) en hielp hij bij de lancering van Echo I, de allereerste communicatiesatelliet. Tegen 1969 was hij een leidinggevende bij Bell Labs, dat op grote schaal had geïnvesteerd in de ontwikkeling van spraakherkenning.

In een open brief³ gepubliceerd in The Journal of the Acoustical Society of America, legde Pierce zijn zorgen uit. Verwijzend naar een “weelderig” financieringsklimaat in de nasleep van de Tweede Wereldoorlog en de Spoetnik, en het gebrek aan verantwoording daarvan, vermaande Pierce het vakgebied voor zijn gebrek aan wetenschappelijke nauwkeurigheid, en stelde dat er te veel wilde experimenten plaatsvonden:

“Wij geloven allemaal dat een wetenschap van spraak mogelijk is, ondanks de schaarste in het vakgebied aan mensen die zich als wetenschappers gedragen en aan resultaten die op wetenschap lijken.” – J.R. Pierce, 1969

Pierce voegde de daad bij het woord: hij financierde de ASR-programma’s van Bell, die pas na zijn ontslag in 1971 weer zouden worden ingevoerd.

Progress Continues

Gelukkig was er elders meer optimisme. In het begin van de jaren zeventig financierde het ARPA van het Amerikaanse Ministerie van Defensie (het agentschap dat nu bekend staat als DARPA) een vijfjarenprogramma onder de naam Speech Understanding Research. Dit leidde tot de ontwikkeling van verschillende nieuwe ASR-systemen, waarvan het meest succesvolle Carnegie Mellon University’s Harpy was, dat in 1976 iets meer dan 1000 woorden kon herkennen.

1976 -CMU’s Harpy Speech Recognition System

Mettertijd dreven inspanningen van IBM en AT&T’s Bell Laboratories de technologie in de richting van mogelijke commerciële toepassingen. IBM gaf prioriteit aan spraaktranscriptie in de context van kantoorcorrespondentie, en Bell hield zich bezig met ‘command and control’-scenario’s: de voorlopers van de spraakherkenning en geautomatiseerde telefoonbomen die we vandaag de dag kennen¹.

Ondanks deze vooruitgang was ASR aan het eind van de jaren zeventig nog lang niet levensvatbaar, behalve voor zeer specifieke toepassingen.

De jaren tachtig: Markovs and More

Een belangrijk keerpunt kwam met de popularisering van Verborgen Markov Modellen (HMMs) in het midden van de jaren tachtig. Deze benadering betekende een belangrijke verschuiving “van eenvoudige patroonherkenningsmethoden, gebaseerd op sjablonen en een spectrale afstandsmaat, naar een statistische methode voor spraakverwerking”⁴, wat zich vertaalde in een sprong voorwaarts in nauwkeurigheid.

Een groot deel van de verbetering in spraakherkenningssystemen sinds het eind van de jaren zestig is te danken aan de kracht van deze statistische benadering, in combinatie met de vooruitgang in computertechnologie die nodig was om HMM’s te implementeren.⁵

HMM’s veroverden de industrie stormenderhand – maar ze waren niet van de ene op de andere dag een succes. Jim Baker paste ze voor het eerst toe op spraakherkenning in de vroege jaren 1970 aan de CMU, en de modellen zelf waren beschreven door Leonard E. Baum in de jaren ’60. Het was pas in 1980, toen Jack Ferguson een aantal verhelderende lezingen gaf aan het Institute for Defense Analyses, dat de techniek zich breder begon te verspreiden⁴.

Het succes van HMMs bevestigde het werk van Frederick Jelinek bij IBM’s Watson Research Center, die sinds het begin van de jaren 1970 had gepleit voor het gebruik van statistische modellen om spraak te interpreteren, in plaats van te proberen computers de manier te laten nabootsen waarop mensen taal verteren: door middel van betekenis, syntaxis, en grammatica (een gangbare benadering in die tijd). Zoals Jelinek het later uitdrukte: “Vliegtuigen flapperen niet met hun vleugels.”

Deze gegevensgestuurde benaderingen vergemakkelijkten ook de vooruitgang die evenzeer te maken had met de samenwerking en verantwoordelijkheid van de industrie als met individuele eureka-momenten. Met de toenemende populariteit van statistische modellen begon het ASR-veld zich te verenigen rond een reeks tests die een gestandaardiseerde benchmark zouden bieden om mee te vergelijken. Dit werd verder aangemoedigd door de vrijgave van gedeelde datasets: grote corpussen van gegevens die onderzoekers konden gebruiken om hun modellen op te trainen en te testen.

Met andere woorden: eindelijk was er een (onvolmaakte) manier om succes te meten en te vergelijken.

A Piercing Freeze

Progress Continues

De jaren tachtig: Markovs and More

Geef een antwoord Antwoord annuleren