Vad är taligenkänning? En definition från WhatIs.com

Taligenkänning, eller tal-till-text, är förmågan hos en maskin eller ett program att identifiera ord som talas högt och omvandla dem till läsbar text. En rudimentär programvara för taligenkänning har ett begränsat ordförråd av ord och fraser, och den kan endast identifiera dessa om de talas mycket tydligt. Mer sofistikerad programvara har förmågan att acceptera naturligt tal, olika accenter och språk.

Taligenkänning omfattar olika forskningsområden inom datavetenskap, lingvistik och datateknik. Många moderna enheter eller textfokuserade program kan ha funktioner för taligenkänning i sig för att möjliggöra enklare eller handsfree användning av en enhet.

Det är viktigt att notera att termerna taligenkänning och röstigenkänning ibland används synonymt. De två termerna betyder dock olika saker. Taligenkänning används för att identifiera ord i talat språk. Röstigenkänning är en biometrisk teknik som används för att identifiera en viss individs röst eller för talaridentifiering.

Hur det fungerar

Taligenkänning fungerar med hjälp av algoritmer genom akustisk och språklig modellering. Akustisk modellering representerar förhållandet mellan språkliga enheter i tal och ljudsignaler; språkmodellering matchar ljud med ordsekvenser för att hjälpa till att skilja mellan ord som låter likadant.

Ofta används också dolda Markovmodeller för att känna igen tidsmässiga mönster i talet för att förbättra noggrannheten i systemet. Denna metod kommer att slumpmässigt förändra system där det antas att framtida tillstånd inte beror på tidigare tillstånd. Andra metoder som används vid taligenkänning kan vara naturlig språkbehandling (NLP) eller N-gram. NLP gör taligenkänningsprocessen enklare och tar mindre tid. N-grams är å andra sidan en relativt enkel metod för språkmodeller. De hjälper till att skapa en sannolikhetsfördelning för en sekvens.

Mer avancerade programvaror för taligenkänning kommer att använda AI och maskininlärning. Dessa system kommer att använda grammatik, struktur, syntax samt sammansättning av ljud- och röstsignaler för att bearbeta tal. Programvara som använder maskininlärning kommer att lära sig mer ju mer den används, så det kan vara lättare att lära sig begrepp som accenter.

Användningar

De vanligaste tillämpningarna av taligenkänning inom företaget inkluderar användning av taligenkänning i mobila enheter. Individer kan till exempel använda denna funktionalitet i smartphones för samtalsdirigering, bearbetning av tal till text, röstuppringning och röstsökning. En smartphone-användare kan använda taligenkänningsfunktionen för att svara på en text utan att behöva titta ner på sin telefon. Taligenkänning i iPhones är till exempel knuten till andra funktioner, som tangentbordet och Siri. Om en användare lägger till ett sekundärt språk till sitt tangentbord kan han eller hon sedan använda taligenkänningsfunktionen på det sekundära språket (så länge det sekundära språket är valt på tangentbordet när man aktiverar taligenkänningen. För att använda andra funktioner som Siri måste användaren ändra språkinställningarna.)

Taligenkänning finns också i ordbehandlingsprogram som Microsoft Word, där användarna kan diktera vad de vill ska visas som text.

Fördelar och nackdelar

Taligenkänningstekniken är visserligen praktisk, men den har fortfarande en del problem att lösa eftersom den utvecklas kontinuerligt. Fördelarna med programvaran för taligenkänning är att den är lätt att använda och lättillgänglig. Programvara för taligenkänning installeras nu ofta i datorer och mobila enheter, vilket gör att den är lättillgänglig.

Taligenkänning erbjuder ett sätt att
kommunicera med tekniken
omkring oss.

Neddelen med taligenkänning är bland annat dess oförmåga att ibland fånga ord på grund av variationer i uttalet, dess bristande stöd för vissa språk och dess oförmåga att sortera genom bakgrundsbrus. Dessa faktorer kan leda till felaktigheter. Vissa programvaror för taligenkänning kan också ta tid och kännas relativt långsamma att bearbeta tal.

Prestanda

Taligenkänningsprestanda mäts genom noggrannhet och hastighet. Noggrannheten mäts med ordfelprocenten. WER arbetar på ordnivå och identifierar felaktigheter i transkriptionen, även om det inte kan identifiera hur felet uppstod. Hastigheten mäts med realtidsfaktorn. En mängd olika faktorer kan påverka taligenkänningsprestanda, bland annat uttal, accent, tonhöjd, volym och bakgrundsbrus.

Hur det fungerar

Användningar

Fördelar och nackdelar

Prestanda

Lämna ett svar Avbryt svar