reconhecimento da fala

reconhecimento da fala, ou fala para texto, é a capacidade de uma máquina ou programa para identificar palavras faladas em voz alta e convertê-las em texto legível. O software de reconhecimento de fala rudimentar tem um vocabulário limitado de palavras e frases, e só pode identificá-las se elas forem faladas de forma muito clara. Um software mais sofisticado tem a capacidade de aceitar fala natural, diferentes sotaques e línguas.

O reconhecimento da fala incorpora diferentes campos de pesquisa em informática, linguística e engenharia informática. Muitos dispositivos modernos ou programas focados em texto podem ter funções de reconhecimento da fala para permitir um uso mais fácil ou mãos livres de um dispositivo.

É importante notar que os termos reconhecimento da fala e reconhecimento de voz são por vezes usados de forma intercambiável. No entanto, os dois termos significam coisas diferentes. O reconhecimento da fala é usado para identificar palavras na linguagem falada. O reconhecimento de voz é uma tecnologia biométrica usada para identificar a voz de um determinado indivíduo ou para identificação de falantes.

Como funciona

O reconhecimento de voz funciona usando algoritmos através de modelagem acústica e de linguagem. A modelagem acústica representa a relação entre as unidades linguísticas da fala e os sinais de áudio; a modelagem da linguagem combina sons com sequências de palavras para ajudar a distinguir entre palavras que soam semelhantes.

Modelos Markov ocultos, muitas vezes, também são usados para reconhecer padrões temporais na fala para melhorar a precisão dentro do sistema. Este método irá mudar aleatoriamente os sistemas onde se assume que os estados futuros não dependem de estados passados. Outros métodos usados no reconhecimento da fala podem incluir o processamento da linguagem natural (PNL) ou N-gramas. A PNL torna o processo de reconhecimento de fala mais fácil e leva menos tempo. Os N-Gramas, por outro lado, são uma abordagem relativamente simples aos modelos linguísticos. Elas ajudam a criar uma distribuição de probabilidade para uma seqüência.

Um software de reconhecimento de fala mais avançado usará IA e aprendizagem de máquina. Estes sistemas irão usar gramática, estrutura, sintaxe, bem como composição de sinais de áudio e voz para processar a fala. Os softwares que utilizam a aprendizagem mecânica aprenderão mais quanto mais forem usados, por isso pode ser mais fácil aprender conceitos como sotaques.

Aplicações

As aplicações mais frequentes de reconhecimento de voz dentro da empresa incluem o uso do reconhecimento de voz em dispositivos móveis. Por exemplo, as pessoas podem usar essa funcionalidade em smartphones para roteamento de chamadas, processamento de fala para texto, discagem por voz e pesquisa de voz. Um usuário de smartphone pode usar a função de reconhecimento de voz para responder a um texto sem ter que olhar para o telefone. O reconhecimento de voz em iPhones, por exemplo, está ligado a outras funções, como o teclado e o Siri. Se um usuário adicionar um idioma secundário ao seu teclado, poderá então utilizar a funcionalidade de reconhecimento de voz no idioma secundário (desde que o idioma secundário seja selecionado no teclado ao ativar o reconhecimento de voz). Para usar outras funções como o Siri, o usuário teria que alterar as configurações de idioma.)

O reconhecimento de voz também pode ser encontrado em aplicativos de processamento de texto como o Microsoft Word, onde os usuários podem ditar o que querem mostrar como texto.

Pros e contras

Embora seja conveniente, a tecnologia de reconhecimento de voz ainda tem alguns problemas para resolver, pois é continuamente desenvolvida. Os prós do software de reconhecimento de voz são que ele é fácil de usar e está prontamente disponível. Os softwares de reconhecimento da fala são agora frequentemente instalados em computadores e dispositivos móveis, permitindo fácil acesso.

O reconhecimento da fala oferece uma forma de
comunicar-se com a tecnologia
around us.

O lado negativo do reconhecimento da fala inclui a sua incapacidade de, por vezes, capturar palavras devido a variações de pronúncia, a sua falta de suporte para algumas línguas e a sua incapacidade de classificar através do ruído de fundo. Estes factores podem levar a inexactidões. Alguns softwares de reconhecimento de fala também podem levar tempo e parecer relativamente lentos para processar a fala.

Desempenho

O desempenho do reconhecimento da fala é medido pela precisão e velocidade. A exatidão é medida com a taxa de erros de palavras. O WER funciona ao nível das palavras e identifica imprecisões na transcrição, embora não consiga identificar como o erro ocorreu. A velocidade é medida com o fator tempo real. Uma variedade de fatores pode afetar o desempenho do reconhecimento da fala no computador, incluindo pronúncia, acento, tom, volume e ruído de fundo.

Deixe uma resposta

O seu endereço de email não será publicado.