1961 – IBM Shoebox Entre os primeiros projectos foi criado um “digit recognizer” chamado Audrey, criado por investigadores nos Laboratórios Bell em 1952. Audrey podia reconhecer dígitos numéricos falados procurando por impressões digitais de áudio chamadas formantes¹ – as essências destiladas dos sons.
Nos anos 60, a IBM desenvolveu o Shoebox – um sistema que podia reconhecer dígitos e comandos aritméticos como “plus” e “total”. Melhor ainda, Shoebox poderia passar o problema matemático para uma máquina de adição, que calcularia e imprimiria a resposta².
1961 – Uma demonstração da Shoebox da IBM
Meanwhile researchers in Japan built hardware that could recognize the constituent parts of speech like vogels; other systems could evaluate the structure of speech to figure out where a word might end. E uma equipe do University College na Inglaterra pôde reconhecer 4 vogais e 9 consoantes analisando os fonemas, os sons discretos de uma língua¹.
Mas enquanto o campo estava dando passos incrementais adiante, não estava necessariamente claro para onde o caminho estava indo. E então: disaster.
October 1969 – The Journal of the Acoustical Society of America
A Piercing Freeze
O ponto de viragem veio na forma de uma carta escrita por John R. Pierce em 1969.
Pierce há muito tempo se estabeleceu como um engenheiro de renome internacional; entre outras realizações ele cunhou a palavra transistor (agora onipresente na engenharia) e ajudou a lançar o Echo I, o primeiro satélite de comunicações de sempre. Em 1969 era executivo da Bell Labs, que havia investido muito no desenvolvimento do reconhecimento da fala.
Em uma carta aberta³ publicada no The Journal of the Acoustical Society of America, Pierce expôs suas preocupações. Citando um ambiente de financiamento “exuberante” após a Segunda Guerra Mundial e o Sputnik, e a falta de responsabilização do mesmo, Pierce admoestou o campo por sua falta de rigor científico, afirmando que havia muita experimentação selvagem acontecendo:
“Todos nós acreditamos que uma ciência da fala é possível, apesar da escassez no campo de pessoas que se comportam como cientistas e de resultados que se parecem com a ciência”. – J.R. Pierce, 1969
Pierce pôs o dinheiro do seu patrão onde estava a sua boca: ele defendeu os programas de ASR de Bell, que só seriam reintegrados depois de ele se demitir em 1971.
Progresso Continua
Felizmente, havia mais optimismo noutros lugares. No início da década de 1970, a ARPA do Departamento de Defesa dos EUA (a agência agora conhecida como DARPA) financiou um programa de cinco anos chamado Speech Understanding Research. Isso levou à criação de vários novos sistemas ASR, o mais bem sucedido dos quais foi o Harpia da Carnegie Mellon University, que conseguiu reconhecer pouco mais de 1000 palavras até 1976.
1976 -CMU’s Harpia Speech Recognition System
Meanwhile efforts from IBM and AT&T’s Bell Laboratories empurraram a tecnologia para possíveis aplicações comerciais. A IBM priorizou a transcrição da fala no contexto da correspondência de escritório, e Bell estava preocupado com cenários de ‘comando e controle’: os precursores da discagem por voz e árvores telefônicas automatizadas que conhecemos hoje¹.
Apesar deste progresso, no final dos anos 70 a RAS ainda estava longe de ser viável para qualquer coisa, menos para casos de uso altamente específicos.
Isto também me dói a cabeça. Os ’80s: Markovs e Mais
Um ponto de viragem chave veio com a popularização dos Modelos de Markov Escondidos (HMMs) em meados dos anos 80. Esta abordagem representou uma mudança significativa “de métodos simples de reconhecimento de padrões, baseados em modelos e uma medida de distância espectral, para um método estatístico de processamento da fala” ⁴ – o que traduziu um salto em frente na precisão.
Uma grande parte da melhoria nos sistemas de reconhecimento de fala desde o final dos anos 60 deve-se ao poder desta abordagem estatística, juntamente com os avanços na tecnologia informática necessários para implementar HMMs.⁵
HMMs tomaram a indústria por tempestade – mas não foram sucesso da noite para o dia. Jim Baker aplicou-os pela primeira vez ao reconhecimento da fala no início dos anos 70 na CMU, e os modelos em si tinham sido descritos por Leonard E. Baum nos anos 60. Foi só em 1980, quando Jack Ferguson deu um conjunto de palestras esclarecedoras no Institute for Defense Analyses, que a técnica começou a disseminar mais widely⁴.
O sucesso dos HMMs validou o trabalho de Frederick Jelinek no Centro de Pesquisa Watson da IBM, que desde o início dos anos 70 defendia o uso de modelos estatísticos para interpretar a fala, em vez de tentar fazer com que os computadores imitassem a forma como os humanos digerem a linguagem: através do significado, sintaxe e gramática (uma abordagem comum na época). Como Jelinek mais tarde o disse: “Os aviões não batem as asas”. ⁹
Estas abordagens orientadas por dados também facilitaram o progresso que tinha tanto a ver com a colaboração e responsabilidade da indústria como os momentos individuais eureka. Com o aumento da popularidade dos modelos estatísticos, o campo ASR começou a coalescer em torno de um conjunto de testes que forneceriam um padrão de referência padronizado para comparação. Isso foi ainda mais encorajado pelo lançamento de conjuntos de dados compartilhados: grandes corpos de dados que os pesquisadores poderiam usar para treinar e testar seus modelos em.
Em outras palavras: finalmente, havia uma maneira (imperfeita) de medir e comparar o sucesso.