beszédfelismerés

A beszédfelismerés vagy beszédből szöveggé alakítás az a képesség, hogy egy gép vagy program képes hangosan kimondott szavakat azonosítani és olvasható szöveggé alakítani. A kezdetleges beszédfelismerő szoftverek szavak és kifejezések korlátozott szókincsével rendelkeznek, és ezeket csak akkor tudja azonosítani, ha nagyon tisztán beszélik őket. A kifinomultabb szoftverek képesek a természetes beszéd, a különböző akcentusok és nyelvek elfogadására.

A beszédfelismerés az informatika, a nyelvészet és a számítástechnika különböző kutatási területeit foglalja magában. Számos modern eszköz vagy szövegre összpontosító program tartalmazhat beszédfelismerő funkciókat, amelyek lehetővé teszik az eszköz könnyebb vagy kéz nélküli használatát.

Fontos megjegyezni, hogy a beszédfelismerés és a hangfelismerés kifejezéseket néha felváltva használják. A két kifejezés azonban különböző dolgokat jelent. A beszédfelismerést a beszélt nyelvben lévő szavak azonosítására használják. A hangfelismerés egy biometrikus technológia, amelyet egy adott személy hangjának azonosítására vagy a beszélő azonosítására használnak.

Hogyan működik

A beszédfelismerés algoritmusok segítségével működik akusztikai és nyelvi modellezéssel. Az akusztikai modellezés a beszéd nyelvi egységei és a hangjelek közötti kapcsolatot reprezentálja; a nyelvi modellezés a hangokat a szavak szekvenciáihoz illeszti, hogy segítsen megkülönböztetni a hasonlóan hangzó szavakat.

Gyakran használnak rejtett Markov-modelleket is a beszéd időbeli mintázatainak felismerésére, hogy javítsák a pontosságot a rendszeren belül. Ez a módszer véletlenszerűen változtatja a rendszereket, ahol feltételezik, hogy a jövőbeli állapotok nem függenek a múltbeli állapotoktól. A beszédfelismerésben használt egyéb módszerek közé tartozhat a természetes nyelvi feldolgozás (NLP) vagy az N-grammok. Az NLP megkönnyíti a beszédfelismerési folyamatot, és kevesebb időt vesz igénybe. Az N-grammok ezzel szemben a nyelvi modellek viszonylag egyszerű megközelítését jelentik. Segítenek egy szekvencia valószínűségi eloszlásának létrehozásában.

A fejlettebb beszédfelismerő szoftverek mesterséges intelligenciát és gépi tanulást használnak. Ezek a rendszerek a nyelvtant, a szerkezetet, a szintaxist, valamint a hang- és hangjelek összetételét fogják használni a beszéd feldolgozásához. A gépi tanulást használó szoftverek annál többet tanulnak, minél többet használják őket, így könnyebben megtanulhatnak olyan fogalmakat, mint például az ékezetek.

Alkalmazások

A beszédfelismerés leggyakoribb vállalati alkalmazásai közé tartozik a beszédfelismerés alkalmazása a mobileszközökben. A magánszemélyek például használhatják ezt a funkciót az okostelefonokban hívásirányításra, beszédből szövegbe történő feldolgozásra, hangalapú tárcsázásra és hangalapú keresésre. Egy okostelefon-felhasználó használhatja a beszédfelismerő funkciót, hogy válaszoljon egy szövegre anélkül, hogy le kellene néznie a telefonjára. Az iPhone-ok beszédfelismerése például más funkciókhoz, például a billentyűzethez és a Sirihez kapcsolódik. Ha a felhasználó egy másodlagos nyelvet ad hozzá a billentyűzetéhez, akkor a beszédfelismerő funkciót a másodlagos nyelven is használhatja (feltéve, hogy a hangfelismerés aktiválásakor a másodlagos nyelv van kiválasztva a billentyűzeten. Más funkciók, például a Siri használatához a felhasználónak meg kell változtatnia a nyelvi beállításokat.)

A beszédfelismerés olyan szövegszerkesztő alkalmazásokban is megtalálható, mint például a Microsoft Word, ahol a felhasználók lediktálhatják, hogy mit szeretnének szövegként megjeleníteni.

Előnyök és hátrányok

A beszédfelismerési technológiának – bár kényelmes – van még néhány megoldandó problémája, mivel folyamatosan fejlesztik. A beszédfelismerő szoftverek előnye, hogy könnyen használható és könnyen elérhető. A beszédfelismerő szoftvereket ma már gyakran telepítik a számítógépekre és a mobil eszközökre, ami könnyű hozzáférést tesz lehetővé.

A beszédfelismerés módot kínál arra, hogy
kommunikáljunk a körülöttünk lévő technológiával
.

A beszédfelismerés hátrányai közé tartozik, hogy a kiejtésbeli eltérések miatt néha nem képes a szavak rögzítésére, nem támogat bizonyos nyelveket, és nem képes a háttérzajok kiválogatására. Ezek a tényezők pontatlanságokhoz vezethetnek. Egyes beszédfelismerő szoftvereknél a beszéd feldolgozása is időigényes és viszonylag lassúnak érezhető.

Teljesítmény

A beszédfelismerés teljesítményét a pontossággal és a sebességgel mérik. A pontosságot a szóhibaaránnyal mérik. A WER a szó szintjén működik, és azonosítja az átírás pontatlanságait, bár nem tudja azonosítani, hogyan történt a hiba. A sebességet a valós idejű tényezővel mérik. A számítógépes beszédfelismerés teljesítményét számos tényező befolyásolhatja, többek között a kiejtés, az akcentus, a hangmagasság, a hangerő és a háttérzaj.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.