Hvad er talegenkendelse? En definition fra WhatIs.com

Talegenkendelse, eller tale-til-tekst, er en maskines eller et programs evne til at identificere ord, der tales højt, og konvertere dem til læsbar tekst. Rudimentær talegenkendelsessoftware har et begrænset ordforråd af ord og sætninger, og den kan kun identificere disse, hvis de bliver talt meget tydeligt. Mere sofistikeret software har evnen til at acceptere naturlig tale, forskellige accenter og sprog.

Tale-genkendelse omfatter forskellige forskningsområder inden for datalogi, lingvistik og computerteknik. Mange moderne enheder eller tekstfokuserede programmer kan have talegenkendelsesfunktioner i dem for at gøre det lettere eller håndfrit at bruge en enhed.

Det er vigtigt at bemærke, at udtrykkene talegenkendelse og stemmegenkendelse nogle gange bruges i flæng. De to udtryk betyder imidlertid forskellige ting. Talegenkendelse bruges til at identificere ord i talesprog. Talegenkendelse er en biometrisk teknologi, der bruges til at identificere en bestemt persons stemme eller til identifikation af taleren.

Sådan fungerer det

Talegenkendelse fungerer ved hjælp af algoritmer gennem akustisk og sproglig modellering. Akustisk modellering repræsenterer forholdet mellem sproglige enheder i tale og lydsignaler; sprogmodellering matcher lyde med ordsekvenser for at hjælpe med at skelne mellem ord, der lyder ens.

Ofte bruges skjulte Markov-modeller også til at genkende tidsmønstre i tale for at forbedre nøjagtigheden i systemet. Denne metode vil tilfældigt ændre systemer, hvor det antages, at fremtidige tilstande ikke afhænger af tidligere tilstande. Andre metoder, der anvendes i talegenkendelse, kan omfatte naturlig sprogbehandling (NLP) eller N-grammer. NLP gør talegenkendelsesprocessen lettere og tager mindre tid. N-grammer er på den anden side en relativt enkel tilgang til sprogmodeller. De hjælper med at skabe en sandsynlighedsfordeling for en sekvens.

Mere avanceret talegenkendelsessoftware vil anvende AI og maskinlæring. Disse systemer vil bruge grammatik, struktur, syntaks samt sammensætning af lyd- og stemmesignaler til at behandle tale. Software, der anvender maskinlæring, vil lære mere, jo mere den bruges, så det kan være lettere at lære begreber som f.eks. accenter.

Anvendelser

De hyppigste anvendelser af talegenkendelse inden for virksomheden omfatter brugen af talegenkendelse i mobile enheder. F.eks. kan enkeltpersoner bruge denne funktionalitet i smartphones til opkaldsvejledning, tale-til-tekst-behandling, stemmeopkald og stemmesøgning. En smartphone-bruger kan bruge talegenkendelsesfunktionen til at svare på en tekst uden at skulle kigge ned på sin telefon. Talegenkendelse på iPhones er f.eks. knyttet til andre funktioner, f.eks. tastaturet og Siri. Hvis en bruger tilføjer et sekundært sprog til sit tastatur, kan han/hun derefter bruge talegenkendelsesfunktionen på det sekundære sprog (så længe det sekundære sprog er valgt på tastaturet, når man aktiverer talegenkendelsen. For at bruge andre funktioner som Siri skal brugeren ændre sprogindstillingerne.)

Talegenkendelse kan også findes i tekstbehandlingsprogrammer som Microsoft Word, hvor brugerne kan diktere, hvad de ønsker at få vist som tekst.

Pros og cons

Selv om den er praktisk, har talegenkendelsesteknologien stadig et par problemer, der skal løses, da den løbende udvikles. Fordelene ved talegenkendelsessoftware er, at den er nem at bruge og let tilgængelig. Talegenkendelsessoftware er nu ofte installeret i computere og mobile enheder, hvilket giver nem adgang.

Talegenkendelse tilbyder en måde at
kommunikere med den teknologi
omkring os.

Den negative side af talegenkendelse omfatter dens manglende evne til nogle gange at fange ord på grund af variationer i udtale, dens manglende understøttelse af nogle sprog og dens manglende evne til at sortere gennem baggrundsstøj. Disse faktorer kan føre til unøjagtigheder. Nogle talegenkendelsessoftware kan også tage tid og føles relativt langsom til at behandle tale.

Præstation

Talegenkendelsespræstationer måles ved nøjagtighed og hastighed. Nøjagtigheden måles med ordfejlprocenten. WER arbejder på ordniveau og identificerer unøjagtigheder i transskriptionen, selv om den ikke kan identificere, hvordan fejlen er opstået. Hastighed måles med realtidsfaktoren. En række faktorer kan påvirke computertalegenkendelsens ydeevne, herunder udtale, accent, tonehøjde, lydstyrke og baggrundsstøj.

Sådan fungerer det

Anvendelser

Pros og cons

Præstation

Skriv et svar Annuller svar