Una breve historia del ASR: reconocimiento automático del habla

Descript se enorgullece de formar parte de una nueva generación de software creativo que ha sido posible gracias a los recientes avances en el reconocimiento automático del habla (ASR). Es un momento emocionante: la tecnología ha cruzado recientemente un umbral que le permite cambiar su larga promesa por una notable utilidad, y no hace más que mejorar.

Este momento ha tardado en llegar. La tecnología de reconocimiento de voz lleva más de medio siglo en desarrollo y ha pasado por varios periodos de intensas promesas y decepciones. ¿Qué ha cambiado para que el ASR sea viable en aplicaciones comerciales? La historia del reconocimiento del habla tiene que ver tanto con la aplicación de diferentes enfoques como con el desarrollo de la tecnología en bruto, aunque ambos están inextricablemente relacionados. A lo largo de varias décadas, los investigadores concibieron innumerables formas de diseccionar el lenguaje: por sonidos, por estructura y con estadísticas.

El interés del ser humano por reconocer y sintetizar el habla se remonta a cientos de años atrás (¡al menos!), pero no fue hasta mediados del siglo XX cuando nuestros antepasados construyeron algo reconocible como ASR.

1961 – IBM Shoebox

Entre los primeros proyectos se encontraba un «reconocedor de dígitos» llamado Audrey, creado por investigadores de los Laboratorios Bell en 1952. Audrey podía reconocer dígitos numéricos hablados buscando huellas dactilares de audio llamadas formantes¹ – las esencias destiladas de los sonidos.

En la década de 1960, IBM desarrolló Shoebox – un sistema que podía reconocer dígitos y comandos aritméticos como «más» y «total». Mejor aún, Shoebox podía pasar el problema matemático a una máquina de sumar, que calculaba e imprimía la respuesta².

1961 – Una demostración del Shoebox de IBM

Mientras tanto, investigadores de Japón construían un hardware que podía reconocer las partes constitutivas del habla, como las vocales; otros sistemas podían evaluar la estructura del habla para averiguar dónde podía terminar una palabra. Y un equipo del University College de Inglaterra pudo reconocer 4 vocales y 9 consonantes analizando los fonemas, los sonidos discretos de un idioma¹.

Pero aunque el campo estaba dando pasos graduales hacia adelante, no estaba necesariamente claro hacia dónde se dirigía el camino. Y entonces: el desastre.

Octubre de 1969 – The Journal of the Acoustical Society of America

Una helada penetrante

El punto de inflexión llegó en forma de una carta escrita por John R. Pierce en 1969.

Pierce hacía tiempo que se había consolidado como un ingeniero de renombre internacional; entre otros logros, acuñó la palabra transistor (ahora omnipresente en la ingeniería) y ayudó a lanzar el Echo I, el primer satélite de comunicaciones de la historia. En 1969 ya era ejecutivo de los Laboratorios Bell, que habían invertido mucho en el desarrollo del reconocimiento del habla.

En una carta abierta³ publicada en The Journal of the Acoustical Society of America, Pierce expuso sus preocupaciones. Citando un entorno de financiación «exuberante» tras la Segunda Guerra Mundial y el Sputnik, y la falta de responsabilidad al respecto, Pierce amonestó al campo por su falta de rigor científico, afirmando que había demasiada experimentación salvaje:

«Todos creemos que es posible una ciencia del habla, a pesar de la escasez en el campo de personas que se comporten como científicos y de resultados que parezcan ciencia.» – J.R. Pierce, 1969

Pierce puso el dinero de su empleador donde estaba su boca: desfinanció los programas de ASR de Bell, que no se restablecerían hasta después de su dimisión en 1971.

El progreso continúa

Afortunadamente había más optimismo en otros lugares. A principios de la década de 1970, la ARPA del Departamento de Defensa de Estados Unidos (la agencia que ahora se conoce como DARPA) financió un programa de cinco años llamado Speech Understanding Research. Esto llevó a la creación de varios sistemas ASR nuevos, el más exitoso de los cuales fue el Harpy de la Universidad Carnegie Mellon, que podía reconocer algo más de 1.000 palabras en 1976.

1976 – Sistema de reconocimiento del habla Harpy de la UCM

Mientras tanto, los esfuerzos de IBM y los Laboratorios Bell de AT&T impulsaron la tecnología hacia posibles aplicaciones comerciales. IBM daba prioridad a la transcripción del habla en el contexto de la correspondencia de oficina, y Bell se preocupaba por los escenarios de «mando y control»: los precursores de la marcación por voz y de los árboles telefónicos automatizados que conocemos hoy¹.

A pesar de estos avances, a finales de la década de los 70 la ASR todavía estaba muy lejos de ser viable para cualquier cosa que no fueran casos de uso muy específicos.

A mí también me duele la cabeza.

Los años 80: Markov y más

Un punto de inflexión clave fue la popularización de los modelos de Markov ocultos (HMM) a mediados de la década de 1980. Este enfoque representó un cambio significativo «de los métodos simples de reconocimiento de patrones, basados en plantillas y una medida de distancia espectral, a un método estadístico para el procesamiento del habla»⁴, lo que se tradujo en un salto adelante en la precisión.

Una gran parte de la mejora de los sistemas de reconocimiento del habla desde finales de la década de 1960 se debe a la potencia de este enfoque estadístico, junto con los avances en la tecnología informática necesaria para implementar los HMMs.⁵

Los HMMs tomaron la industria por sorpresa – pero no fueron un éxito de la noche a la mañana. Jim Baker los aplicó por primera vez al reconocimiento del habla a principios de los años 70 en la CMU, y los propios modelos habían sido descritos por Leonard E. Baum en los años 60. No fue hasta 1980, cuando Jack Ferguson dio una serie de conferencias esclarecedoras en el Instituto de Análisis de Defensa, que la técnica comenzó a difundirse más ampliamente⁴.

El éxito de los HMM validó el trabajo de Frederick Jelinek en el Centro de Investigación Watson de IBM, que desde principios de la década de 1970 había defendido el uso de modelos estadísticos para interpretar el habla, en lugar de intentar que los ordenadores imitaran la forma en que los humanos digieren el lenguaje: a través del significado, la sintaxis y la gramática (un enfoque común en ese momento). Como dijo Jelinek más tarde: «Los aviones no baten las alas»⁹

Estos enfoques basados en los datos también facilitaron un progreso que tenía tanto que ver con la colaboración y la responsabilidad de la industria como con los momentos de eureka individuales. Con la creciente popularidad de los modelos estadísticos, el campo de la ASR comenzó a unirse en torno a un conjunto de pruebas que proporcionaría un punto de referencia estandarizado para comparar. Esto se vio favorecido por la publicación de conjuntos de datos compartidos: grandes corpus de datos que los investigadores podían utilizar para entrenar y probar sus modelos.

En otras palabras: por fin había una forma (imperfecta) de medir y comparar el éxito.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.