Spraakherkenning

Spraakherkenning, of spraak-naar-tekst, is het vermogen van een machine of programma om hardop gesproken woorden te herkennen en om te zetten in leesbare tekst. Rudimentaire spraakherkenningssoftware heeft een beperkt vocabulaire van woorden en zinnen, en kan deze alleen identificeren als ze zeer duidelijk worden uitgesproken. Meer gesofisticeerde software kan natuurlijke spraak, verschillende accenten en talen accepteren.

Spraakherkenning omvat verschillende onderzoeksgebieden in computerwetenschap, taalkunde en computertechniek. Veel moderne apparaten of tekstgerichte programma’s kunnen spraakherkenningsfuncties bevatten om het gebruik van een apparaat gemakkelijker of handsfree te maken.

Het is belangrijk op te merken dat de termen spraakherkenning en spraakherkenning soms door elkaar worden gebruikt. De twee termen betekenen echter verschillende dingen. Spraakherkenning wordt gebruikt om woorden in gesproken taal te identificeren. Spraakherkenning is een biometrische technologie die wordt gebruikt om de stem van een bepaald individu te identificeren of voor sprekeridentificatie.

Hoe het werkt

Spraakherkenning werkt met algoritmen via akoestische en taalmodellering. Akoestische modellering vertegenwoordigt de relatie tussen linguïstische eenheden van spraak en audiosignalen; taalmodellering stemt geluiden af op woordsequenties om te helpen onderscheid te maken tussen woorden die vergelijkbaar klinken.

Vaak worden ook verborgen Markov-modellen gebruikt om temporele patronen in spraak te herkennen om de nauwkeurigheid binnen het systeem te verbeteren. Deze methode zal systemen willekeurig veranderen waarbij wordt aangenomen dat toekomstige toestanden niet afhankelijk zijn van toestanden in het verleden. Andere methoden die bij spraakherkenning worden gebruikt, kunnen natuurlijke taalverwerking (NLP) of N-grammen zijn. NLP maakt het spraakherkenningsproces gemakkelijker en neemt minder tijd in beslag. N-Grams daarentegen zijn een relatief eenvoudige benadering van taalmodellen. Zij helpen bij het creëren van een waarschijnlijkheidsverdeling voor een sequentie.

Meer geavanceerde spraakherkenningssoftware zal gebruik maken van AI en machinaal leren. Deze systemen zullen grammatica, structuur, syntaxis en samenstelling van audio- en spraaksignalen gebruiken om spraak te verwerken. Software die gebruik maakt van machine learning zal meer leren naarmate het meer wordt gebruikt, dus het kan gemakkelijker zijn om concepten zoals accenten te leren.

Toepassingen

De meest voorkomende toepassingen van spraakherkenning binnen de onderneming omvatten het gebruik van spraakherkenning in mobiele apparaten. Individuen kunnen deze functionaliteit in smartphones bijvoorbeeld gebruiken voor gespreksroutering, spraak-naar-tekstverwerking, spraakgestuurde nummerkeuze en spraakgestuurd zoeken. Een smartphone-gebruiker kan de spraakherkenningsfunctie gebruiken om te reageren op een tekst zonder op zijn telefoon te hoeven kijken. Spraakherkenning op iPhones, bijvoorbeeld, is gekoppeld aan andere functies, zoals het toetsenbord en Siri. Als een gebruiker een tweede taal aan zijn toetsenbord toevoegt, kan hij de spraakherkenningsfunctie in de tweede taal gebruiken (op voorwaarde dat de tweede taal op het toetsenbord is geselecteerd wanneer de spraakherkenning wordt geactiveerd. Om andere functies zoals Siri te gebruiken, zou de gebruiker de taalinstellingen moeten wijzigen.)

Spraakherkenning is ook te vinden in tekstverwerkingsprogramma’s zoals Microsoft Word, waar gebruikers kunnen dicteren wat ze als tekst willen laten verschijnen.

Voordelen en nadelen

Hoewel de spraakherkenningstechnologie handig is, moet ze nog een paar problemen oplossen, aangezien ze voortdurend wordt ontwikkeld. De voordelen van spraakherkenningssoftware zijn dat ze gemakkelijk te gebruiken en gemakkelijk verkrijgbaar is. Spraakherkenningssoftware wordt nu vaak geïnstalleerd in computers en mobiele apparaten, waardoor het gemakkelijk toegankelijk is.

Spraakherkenning biedt een manier om
te communiceren met de technologie
om ons heen.

De keerzijde van spraakherkenning is het onvermogen om soms woorden vast te leggen als gevolg van variaties in uitspraak, het gebrek aan ondersteuning voor sommige talen en het onvermogen om door achtergrondlawaai heen te prikken. Deze factoren kunnen leiden tot onnauwkeurigheden. Sommige spraakherkenningssoftware kan ook tijd nodig hebben en relatief traag aanvoelen om spraak te verwerken.

Prestaties

De prestaties van spraakherkenning worden gemeten aan de hand van nauwkeurigheid en snelheid. De nauwkeurigheid wordt gemeten met de woordfoutenkans. WER werkt op woordniveau en identificeert onnauwkeurigheden in de transcriptie, hoewel niet kan worden vastgesteld hoe de fout is ontstaan. Snelheid wordt gemeten met de real-time factor. Een verscheidenheid van factoren kan de computer spraakherkenning prestaties beïnvloeden, met inbegrip van uitspraak, accent, toonhoogte, volume en achtergrondgeluiden.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.