Una breve historia del ASR: reconocimiento automático del habla

Descript se enorgullece de formar parte de una nueva generación de software creativo que ha sido posible gracias a los recientes avances en el reconocimiento automático del habla (ASR). Es un momento emocionante: la tecnología ha cruzado recientemente un umbral que le permite cambiar su larga promesa por una notable utilidad, y no hace más que mejorar.

Este momento ha tardado en llegar. La tecnología de reconocimiento de voz lleva más de medio siglo en desarrollo y ha pasado por varios periodos de intensas promesas y decepciones. ¿Qué ha cambiado para que el ASR sea viable en aplicaciones comerciales? La historia del reconocimiento del habla tiene que ver tanto con la aplicación de diferentes enfoques como con el desarrollo de la tecnología en bruto, aunque ambos están inextricablemente relacionados. A lo largo de varias décadas, los investigadores concibieron innumerables formas de diseccionar el lenguaje: por sonidos, por estructura y con estadísticas.

El interés del ser humano por reconocer y sintetizar el habla se remonta a cientos de años atrás (¡al menos!), pero no fue hasta mediados del siglo XX cuando nuestros antepasados construyeron algo reconocible como ASR.

Entre los primeros proyectos se encontraba un «reconocedor de dígitos» llamado Audrey, creado por investigadores de los Laboratorios Bell en 1952. Audrey podía reconocer dígitos numéricos hablados buscando huellas dactilares de audio llamadas formantes¹ – las esencias destiladas de los sonidos.

En la década de 1960, IBM desarrolló Shoebox – un sistema que podía reconocer dígitos y comandos aritméticos como «más» y «total». Mejor aún, Shoebox podía pasar el problema matemático a una máquina de sumar, que calculaba e imprimía la respuesta².

1961 – Una demostración del Shoebox de IBM

Mientras tanto, investigadores de Japón construían un hardware que podía reconocer las partes constitutivas del habla, como las vocales; otros sistemas podían evaluar la estructura del habla para averiguar dónde podía terminar una palabra. Y un equipo del University College de Inglaterra pudo reconocer 4 vocales y 9 consonantes analizando los fonemas, los sonidos discretos de un idioma¹.

Pero aunque el campo estaba dando pasos graduales hacia adelante, no estaba necesariamente claro hacia dónde se dirigía el camino. Y entonces: el desastre.

Octubre de 1969 – The Journal of the Acoustical Society of America

Una helada penetrante

El punto de inflexión llegó en forma de una carta escrita por John R. Pierce en 1969.

Pierce hacía tiempo que se había consolidado como un ingeniero de renombre internacional; entre otros logros, acuñó la palabra transistor (ahora omnipresente en la ingeniería) y ayudó a lanzar el Echo I, el primer satélite de comunicaciones de la historia. En 1969 ya era ejecutivo de los Laboratorios Bell, que habían invertido mucho en el desarrollo del reconocimiento del habla.

En una carta abierta³ publicada en The Journal of the Acoustical Society of America, Pierce expuso sus preocupaciones. Citando un entorno de financiación «exuberante» tras la Segunda Guerra Mundial y el Sputnik, y la falta de responsabilidad al respecto, Pierce amonestó al campo por su falta de rigor científico, afirmando que había demasiada experimentación salvaje:

«Todos creemos que es posible una ciencia del habla, a pesar de la escasez en el campo de personas que se comporten como científicos y de resultados que parezcan ciencia.» – J.R. Pierce, 1969

Pierce puso el dinero de su empleador donde estaba su boca: desfinanció los programas de ASR de Bell, que no se restablecerían hasta después de su dimisión en 1971.

El progreso continúa

Afortunadamente había más optimismo en otros lugares. A principios de la década de 1970, la ARPA del Departamento de Defensa de Estados Unidos (la agencia que ahora se conoce como DARPA) financió un programa de cinco años llamado Speech Understanding Research. Esto llevó a la creación de varios sistemas ASR nuevos, el más exitoso de los cuales fue el Harpy de la Universidad Carnegie Mellon, que podía reconocer algo más de 1.000 palabras en 1976.

1976 – Sistema de reconocimiento del habla Harpy de la UCM

Mientras tanto, los esfuerzos de IBM y los Laboratorios Bell de AT&T impulsaron la tecnología hacia posibles aplicaciones comerciales. IBM daba prioridad a la transcripción del habla en el contexto de la correspondencia de oficina, y Bell se preocupaba por los escenarios de «mando y control»: los precursores de la marcación por voz y de los árboles telefónicos automatizados que conocemos hoy¹.

A pesar de estos avances, a finales de la década de los 70 la ASR todavía estaba muy lejos de ser viable para cualquier cosa que no fueran casos de uso muy específicos.