Lyhyt ASR:n historia: automaattinen puheentunnistus

Descript on ylpeä siitä, että se on osa uuden sukupolven luovia ohjelmistoja, jotka automaattisen puheentunnistuksen viimeaikaiset edistysaskeleet mahdollistavat. Tämä on jännittävää aikaa: teknologia ylitti hiljattain kynnyksen, jonka myötä se vaihtaa pitkäaikaisen lupauksensa huomattavaan hyödyllisyyteen, ja se vain paranee.

Tätä hetkeä on odotettu jo pitkään. Puheentunnistuksen taustalla olevaa teknologiaa on kehitetty yli puoli vuosisataa, ja se on kokenut useita voimakkaan lupauksen – ja pettymyksen – kausia. Mikä siis muuttui, jotta puheentunnistuksesta tuli kannattavaa kaupallisissa sovelluksissa? Ja mitä nämä järjestelmät tarkalleen ottaen pystyivät saavuttamaan kauan ennen kuin kukaan meistä oli kuullut Siristä?

Puheentunnistuksen tarina kertoo yhtä paljon erilaisten lähestymistapojen soveltamisesta kuin raakateknologian kehittämisestä, vaikka nämä kaksi liittyvätkin toisiinsa erottamattomasti. Vuosikymmenten kuluessa tutkijat keksivät lukemattomia tapoja pilkkoa kieltä: äänteiden, rakenteen – ja tilastojen avulla.

Ihmisten kiinnostus puheen tunnistamiseen ja syntetisointiin juontaa juurensa satojen vuosien taakse (ainakin!) – mutta vasta 1900-luvun puolivälissä esi-isämme rakensivat jotain ASR:ksi tunnistettavaa.

Varhaisimpiin projekteihin kuului Audrey-niminen ”numeron tunnistuslaite” (digit recognizer), jonka tutkijat loivat Bell Laboratoriesin laboratoriossa vuonna 1952. Audrey pystyi tunnistamaan puhutut numeronumerot etsimällä äänen sormenjälkiä, joita kutsutaan formanteiksi¹ – äänten tislattuja olemuksia.

1960-luvulla IBM kehitti Shoeboxin – järjestelmän, joka pystyi tunnistamaan numeroita ja aritmeettisia komentoja, kuten ”plus” ja ”summa”. Vielä parempaa oli, että Shoebox pystyi välittämään matemaattisen ongelman laskukoneelle, joka laski ja tulosti vastauksen².

1961 – IBM:n Shoeboxin esittely

Japanilaiset tutkijat rakensivat sillä välin laitteistoja, jotka kykenivät tunnistamaan puheessa esiintyviä osatekijöitä, kuten vokaaleja; muut järjestelmät kykenivät arvioimaan puheessa esiintyvää rakennetta sen selvittämiseksi, minne sana saattaisi päättyä. Englantilaisen University Collegen ryhmä pystyi tunnistamaan neljä vokaalia ja yhdeksän konsonanttia analysoimalla foneemeja eli kielen erillisiä äänteitä¹.

Mutta vaikka alalla otettiin askeleittain edistysaskelia, ei välttämättä ollut selvää, minne tie kulkee. Ja sitten: katastrofi.

Lokakuu 1969 – The Journal of the Acoustical Society of America

A Piercing Freeze

Käännepiste tuli kirjeenä, jonka kirjoittajaksi tuli John R. Pierce vuonna 1969.

Pierce oli jo kauan sitten vakiinnuttanut asemansa kansainvälisesti tunnettuna insinöörinä; muiden saavutustensa ohella hän oli keksinyt sanan transistori (joka on nykyään kaikkialla läsnä tekniikassa) ja auttoi Echo I:n, kaikkien aikojen ensimmäisen tietoliikennesatelliitin, laukaisussa. Vuoteen 1969 mennessä hän oli johtavassa asemassa Bell Labsissa, joka oli panostanut voimakkaasti puheentunnistuksen kehittämiseen.

The Journal of the Acoustical Society of America -lehdessä julkaistussa avoimessa kirjeessä³ Pierce esitti huolensa. Viitaten toisen maailmansodan ja Sputnikin jälkeiseen ”rehevään” rahoitusympäristöön ja sen vastuuvelvollisuuden puutteeseen Pierce moitti alaa tieteellisen kurinalaisuuden puutteesta ja väitti, että alalla tehtiin liikaa villejä kokeiluja:

”Me kaikki uskomme, että puhetta koskeva tiede on mahdollista huolimatta siitä, että alalla on niukasti tiedemiesten tapaan käyttäytyviä henkilöitä ja tieteen näköisiä tuloksia.” – J.R. Pierce, 1969

Pierce laittoi työnantajansa rahansa likoon: hän lakkautti Bellin ASR-ohjelmat, jotka otettiin uudelleen käyttöön vasta hänen erottuaan vuonna 1971.

Kehitys jatkuu

Onneksi muualla oli enemmän optimismia. 1970-luvun alussa Yhdysvaltain puolustusministeriön ARPA (virasto, joka nykyisin tunnetaan nimellä DARPA) rahoitti viisivuotista ohjelmaa nimeltä Speech Understanding Research. Tämä johti useiden uusien ASR-järjestelmien luomiseen, joista menestyksekkäin oli Carnegie Mellonin yliopiston Harpy, joka pystyi vuoteen 1976 mennessä tunnistamaan hieman yli 1000 sanaa.

1976 -CMU:n Harpy-puheentunnistusjärjestelmä

Sekä IBM:n ja AT&T:n Bell Laboratoriesin ponnistelut siivittivät teknologiaa kohti mahdollisia kaupallisia sovelluksia. IBM priorisoi puheen transkriptiota toimistokirjeenvaihdon yhteydessä, ja Bell oli kiinnostunut ”komento- ja ohjausskenaarioista”: nykyisin tuntemiemme äänivalintojen ja automaattisten puhelinpuiden edeltäjistä¹.

Tästä edistyksestä huolimatta ASR oli 1970-luvun loppuun mennessä vielä kaukana siitä, että se olisi ollut käyttökelpoinen muuhun kuin hyvin spesifisiin käyttötarkoituksiin.

Kahdeksankymmentäluku: Markovit ja muuta

Keskeinen käännekohta oli Piilotettujen Markov-mallien (Hidden Markov Models, HMM) yleistyminen 1980-luvun puolivälissä. Tämä lähestymistapa edusti merkittävää siirtymistä ”yksinkertaisista, malleihin ja spektriseen etäisyysmittariin perustuvista hahmontunnistusmenetelmistä tilastolliseen puheenkäsittelymenetelmään”⁴ – mikä merkitsi harppausta eteenpäin tarkkuudessa.

Suuri osa puheentunnistusjärjestelmien parantumisesta 1960-luvun loppupuolelta lähtien johtuu tämän tilastollisen lähestymistavan tehosta yhdistettynä HMM:ien toteuttamiseen tarvittavaan tietotekniikan kehitykseen.⁵

HMM:t valtasivat alan myrskyn mukana – mutta ne eivät olleet mikään menestys yhdessä yössä. Jim Baker sovelsi niitä ensimmäisen kerran puheentunnistukseen 1970-luvun alussa CMU:ssa, ja itse mallit oli kuvannut Leonard E. Baum 60-luvulla. Vasta vuonna 1980, kun Jack Ferguson piti valaisevia luentoja Institute for Defense Analyses -laitoksessa, tekniikka alkoi levitä laajemmin⁴.

HMM:ien menestys vahvisti IBM:n Watsonin tutkimuskeskuksessa työskentelevän Frederick Jelinekin työn, joka oli 1970-luvun alusta lähtien kannattanut tilastollisten mallien käyttämistä puheen tulkitsemiseen sen sijaan, että tietokoneet yritettäisiin saada jäljittelemään tapaa, jolla ihmiset sulattavat kieltä: merkityksen, syntaksin ja kieliopin avulla (tuolloin yleinen lähestymistapa). Kuten Jelinek myöhemmin totesi: ”⁹

Nämä datalähtöiset lähestymistavat mahdollistivat myös edistyksen, joka liittyi yhtä paljon alan yhteistyöhön ja vastuullisuuteen kuin yksittäisiin heurekahetkiin. Tilastollisten mallien suosion kasvaessa ASR-ala alkoi koota yhteen testisarjan ympärille, joka tarjoaisi standardoidun vertailukohteen. Tätä edisti myös yhteisten tietokokonaisuuksien julkaiseminen: suuret tietokokonaisuudet, joita tutkijat saattoivat käyttää malliensa kouluttamiseen ja testaamiseen.

Toisin sanoen: vihdoin oli olemassa (epätäydellinen) tapa mitata ja vertailla menestystä.

A Piercing Freeze

Kehitys jatkuu

Kahdeksankymmentäluku: Markovit ja muuta

Vastaa Peruuta vastaus