puheentunnistus

Puheentunnistus eli puheesta tekstiksi on koneen tai ohjelman kyky tunnistaa ääneen puhutut sanat ja muuntaa ne luettavaksi tekstiksi. Alkeellisilla puheentunnistusohjelmilla on rajallinen sanavarasto sanoja ja lauseita, ja se voi tunnistaa ne vain, jos ne puhutaan hyvin selvästi. Kehittyneemmillä ohjelmistoilla on kyky hyväksyä luonnollista puhetta, erilaisia aksentteja ja kieliä.

Puheentunnistus sisältää tietotekniikan, kielitieteen ja tietotekniikan eri tutkimusaloja. Monissa nykyaikaisissa laitteissa tai tekstiin keskittyvissä ohjelmissa voi olla puheentunnistustoimintoja, jotka mahdollistavat laitteen helpomman tai handsfree-käytön.

On tärkeää huomata, että termejä puheentunnistus ja puheentunnistus käytetään toisinaan vaihtelevasti. Nämä kaksi termiä tarkoittavat kuitenkin eri asioita. Puheentunnistusta käytetään sanojen tunnistamiseen puhutussa kielessä. Puheentunnistus on biometrinen tekniikka, jota käytetään tietyn henkilön äänen tunnistamiseen tai puhujan tunnistamiseen.

Miten se toimii

Puheentunnistus toimii algoritmien avulla akustisen ja kielellisen mallintamisen avulla. Akustinen mallinnus edustaa puheen kielellisten yksiköiden ja äänisignaalien välistä suhdetta; kielellinen mallinnus sovittaa äänet yhteen sanasekvenssien kanssa auttaakseen erottamaan samankaltaisilta kuulostavat sanat toisistaan.

Usein käytetään myös piilotettuja Markovin malleja puheessa esiintyvien ajallisten mallien tunnistamiseen järjestelmän tarkkuuden parantamiseksi. Tämä menetelmä muuttaa satunnaisesti järjestelmiä, joissa oletetaan, että tulevat tilat eivät riipu menneistä tiloista. Muita puheentunnistuksessa käytettäviä menetelmiä voivat olla luonnollisen kielen käsittely (NLP) tai N-grammit. NLP tekee puheentunnistusprosessista helpompaa ja vie vähemmän aikaa. N-grammit taas ovat suhteellisen yksinkertainen lähestymistapa kielimalleihin. Niiden avulla luodaan todennäköisyysjakauma sekvenssille.

Kehittyneemmät puheentunnistusohjelmistot käyttävät tekoälyä ja koneoppimista. Nämä järjestelmät käyttävät puheen käsittelyssä kielioppia, rakennetta, syntaksia sekä ääni- ja äänisignaalien koostumusta. Koneoppimista käyttävät ohjelmistot oppivat sitä enemmän, mitä enemmän niitä käytetään, joten niiden voi olla helpompi oppia esimerkiksi aksenttien kaltaisia käsitteitä.

Sovellukset

Puheentunnistuksen yleisimpiä sovelluksia yrityksissä on puheentunnistuksen käyttö mobiililaitteissa. Yksityishenkilöt voivat esimerkiksi käyttää tätä toimintoa älypuhelimissa puhelujen reititykseen, puheesta tekstiksi -käsittelyyn, äänivalintaan ja äänihakuun. Älypuhelimen käyttäjä voi käyttää puheentunnistustoimintoa vastatakseen tekstiin ilman, että hänen tarvitsee katsoa puhelintaan. Puheentunnistus on esimerkiksi iPhoneissa sidottu muihin toimintoihin, kuten näppäimistöön ja Siriin. Jos käyttäjä lisää näppäimistöönsä toissijaisen kielen, hän voi käyttää puheentunnistustoimintoa toissijaisella kielellä (kunhan toissijainen kieli on valittuna näppäimistössä puheentunnistuksen aktivoinnin yhteydessä). Muiden toimintojen, kuten Sirin, käyttämiseksi käyttäjän on muutettava kieliasetuksia.)

Puheentunnistusta löytyy myös tekstinkäsittelyohjelmista, kuten Microsoft Wordista, jossa käyttäjä voi sanella, mitä hän haluaa tekstinä näkyvän.

Hyötyjä ja haittoja

Puheentunnistustekniikka on kätevä, mutta sen jatkuvassa kehityksessä on vielä muutama ongelma. Puheentunnistusohjelmiston hyviä puolia ovat sen helppokäyttöisyys ja helppo saatavuus. Puheentunnistusohjelmistot asennetaan nykyään usein tietokoneisiin ja mobiililaitteisiin, mikä mahdollistaa niiden helpon käytön.

Puheentunnistus tarjoaa tavan
viestittää teknologiaa
ympäristössämme.

Puheentunnistuksen haittapuolia ovat muun muassa sen kyvyttömyys tavoittaa joskus sanoja ääntämisen vaihteluista johtuen, tuen puute joillekin kielille ja kyvyttömyys lajitella taustahälyä. Nämä tekijät voivat johtaa epätarkkuuksiin. Joillakin puheentunnistusohjelmistoilla puheen käsittely voi myös viedä aikaa ja tuntua suhteellisen hitaalta.

Suorituskyky

Puheentunnistuksen suorituskykyä mitataan tarkkuudella ja nopeudella. Tarkkuutta mitataan sanavirheprosentilla. WER toimii sanatasolla ja tunnistaa transkription epätarkkuudet, vaikka se ei pysty tunnistamaan, miten virhe on tapahtunut. Nopeutta mitataan reaaliaikakertoimella. Tietokoneen puheentunnistuksen suorituskykyyn voivat vaikuttaa monet tekijät, kuten ääntäminen, aksentti, äänenkorkeus, äänenvoimakkuus ja taustamelu.

Vastaa

Sähköpostiosoitettasi ei julkaista.