Um Breve Histórico de ASR: Reconhecimento Automático da Fala

Descript orgulha-se de fazer parte de uma nova geração de software criativo habilitado pelos recentes avanços no reconhecimento automático da fala (ASR). É um momento emocionante: a tecnologia ultrapassou recentemente um limiar que a vê trocando sua promessa de longa data por uma utilidade notável, e está apenas melhorando.

Este momento tem sido um longo tempo vindo. A tecnologia por trás do reconhecimento da fala tem estado em desenvolvimento há mais de meio século, passando por vários períodos de intensa promessa – e decepção. Então o que mudou para tornar o ASR viável em aplicações comerciais? E o que exatamente esses sistemas poderiam realizar, muito antes de qualquer um de nós ter ouvido falar de Siri?

A história do reconhecimento da fala é tanto sobre a aplicação de diferentes abordagens quanto sobre o desenvolvimento de tecnologia bruta, embora os dois estejam inextricavelmente ligados. Ao longo de décadas, os pesquisadores conceberiam uma miríade de maneiras de dissecar a linguagem: por sons, por estrutura – e com estatísticas.

O interesse humano em reconhecer e sintetizar a fala data de centenas de anos atrás (pelo menos!) – mas só em meados do século XX é que os nossos antepassados construíram algo reconhecível como ASR.

1961 – IBM Shoebox

Entre os primeiros projectos foi criado um “digit recognizer” chamado Audrey, criado por investigadores nos Laboratórios Bell em 1952. Audrey podia reconhecer dígitos numéricos falados procurando por impressões digitais de áudio chamadas formantes¹ – as essências destiladas dos sons.

Nos anos 60, a IBM desenvolveu o Shoebox – um sistema que podia reconhecer dígitos e comandos aritméticos como “plus” e “total”. Melhor ainda, Shoebox poderia passar o problema matemático para uma máquina de adição, que calcularia e imprimiria a resposta².

1961 – Uma demonstração da Shoebox da IBM

Meanwhile researchers in Japan built hardware that could recognize the constituent parts of speech like vogels; other systems could evaluate the structure of speech to figure out where a word might end. E uma equipe do University College na Inglaterra pôde reconhecer 4 vogais e 9 consoantes analisando os fonemas, os sons discretos de uma língua¹.

Mas enquanto o campo estava dando passos incrementais adiante, não estava necessariamente claro para onde o caminho estava indo. E então: disaster.

October 1969 – The Journal of the Acoustical Society of America

A Piercing Freeze

O ponto de viragem veio na forma de uma carta escrita por John R. Pierce em 1969.

Pierce há muito tempo se estabeleceu como um engenheiro de renome internacional; entre outras realizações ele cunhou a palavra transistor (agora onipresente na engenharia) e ajudou a lançar o Echo I, o primeiro satélite de comunicações de sempre. Em 1969 era executivo da Bell Labs, que havia investido muito no desenvolvimento do reconhecimento da fala.

Em uma carta aberta³ publicada no The Journal of the Acoustical Society of America, Pierce expôs suas preocupações. Citando um ambiente de financiamento “exuberante” após a Segunda Guerra Mundial e o Sputnik, e a falta de responsabilização do mesmo, Pierce admoestou o campo por sua falta de rigor científico, afirmando que havia muita experimentação selvagem acontecendo:

“Todos nós acreditamos que uma ciência da fala é possível, apesar da escassez no campo de pessoas que se comportam como cientistas e de resultados que se parecem com a ciência”. – J.R. Pierce, 1969

Pierce pôs o dinheiro do seu patrão onde estava a sua boca: ele defendeu os programas de ASR de Bell, que só seriam reintegrados depois de ele se demitir em 1971.

Progresso Continua

Felizmente, havia mais optimismo noutros lugares. No início da década de 1970, a ARPA do Departamento de Defesa dos EUA (a agência agora conhecida como DARPA) financiou um programa de cinco anos chamado Speech Understanding Research. Isso levou à criação de vários novos sistemas ASR, o mais bem sucedido dos quais foi o Harpia da Carnegie Mellon University, que conseguiu reconhecer pouco mais de 1000 palavras até 1976.

1976 -CMU’s Harpia Speech Recognition System

Meanwhile efforts from IBM and AT&T’s Bell Laboratories empurraram a tecnologia para possíveis aplicações comerciais. A IBM priorizou a transcrição da fala no contexto da correspondência de escritório, e Bell estava preocupado com cenários de ‘comando e controle’: os precursores da discagem por voz e árvores telefônicas automatizadas que conhecemos hoje¹.

Apesar deste progresso, no final dos anos 70 a RAS ainda estava longe de ser viável para qualquer coisa, menos para casos de uso altamente específicos.

Isto também me dói a cabeça.

Os ’80s: Markovs e Mais

Um ponto de viragem chave veio com a popularização dos Modelos de Markov Escondidos (HMMs) em meados dos anos 80. Esta abordagem representou uma mudança significativa “de métodos simples de reconhecimento de padrões, baseados em modelos e uma medida de distância espectral, para um método estatístico de processamento da fala” ⁴ – o que traduziu um salto em frente na precisão.

Uma grande parte da melhoria nos sistemas de reconhecimento de fala desde o final dos anos 60 deve-se ao poder desta abordagem estatística, juntamente com os avanços na tecnologia informática necessários para implementar HMMs.⁵

HMMs tomaram a indústria por tempestade – mas não foram sucesso da noite para o dia. Jim Baker aplicou-os pela primeira vez ao reconhecimento da fala no início dos anos 70 na CMU, e os modelos em si tinham sido descritos por Leonard E. Baum nos anos 60. Foi só em 1980, quando Jack Ferguson deu um conjunto de palestras esclarecedoras no Institute for Defense Analyses, que a técnica começou a disseminar mais widely⁴.

O sucesso dos HMMs validou o trabalho de Frederick Jelinek no Centro de Pesquisa Watson da IBM, que desde o início dos anos 70 defendia o uso de modelos estatísticos para interpretar a fala, em vez de tentar fazer com que os computadores imitassem a forma como os humanos digerem a linguagem: através do significado, sintaxe e gramática (uma abordagem comum na época). Como Jelinek mais tarde o disse: “Os aviões não batem as asas”. ⁹

Estas abordagens orientadas por dados também facilitaram o progresso que tinha tanto a ver com a colaboração e responsabilidade da indústria como os momentos individuais eureka. Com o aumento da popularidade dos modelos estatísticos, o campo ASR começou a coalescer em torno de um conjunto de testes que forneceriam um padrão de referência padronizado para comparação. Isso foi ainda mais encorajado pelo lançamento de conjuntos de dados compartilhados: grandes corpos de dados que os pesquisadores poderiam usar para treinar e testar seus modelos em.

Em outras palavras: finalmente, havia uma maneira (imperfeita) de medir e comparar o sucesso.

Deixe uma resposta

O seu endereço de email não será publicado.