Une brève histoire de l'ASR : la reconnaissance automatique de la parole

Descript est fier de faire partie d’une nouvelle génération de logiciels créatifs rendus possibles par les récentes avancées de la reconnaissance automatique de la parole (ASR). C’est une période passionnante : la technologie a récemment franchi un seuil qui la voit échanger ses promesses de longue date contre une utilité remarquable, et elle ne fait que s’améliorer.

Ce moment s’est fait attendre. La technologie derrière la reconnaissance vocale est en développement depuis plus d’un demi-siècle, traversant plusieurs périodes d’intense promesse – et de déception. Qu’est-ce qui a donc changé pour que la RVA soit viable dans les applications commerciales ? Et qu’est-ce que ces systèmes pouvaient exactement accomplir, bien avant qu’aucun d’entre nous n’ait entendu parler de Siri ?

L’histoire de la reconnaissance vocale concerne autant l’application de différentes approches que le développement de la technologie brute, bien que les deux soient inextricablement liés. Sur une période de plusieurs décennies, les chercheurs allaient concevoir des myriades de façons de disséquer le langage : par les sons, par la structure – et avec des statistiques.

L’intérêt de l’homme pour la reconnaissance et la synthèse de la parole remonte à des centaines d’années (au moins !) – mais ce n’est qu’au milieu du 20e siècle que nos ancêtres ont construit quelque chose de reconnaissable comme un ASR.

Parmi les premiers projets, on trouve un » reconnaisseur de chiffres » appelé Audrey, créé par des chercheurs des Laboratoires Bell en 1952. Audrey pouvait reconnaître des chiffres numériques parlés en recherchant des empreintes audio appelées formants¹ – les essences distillées des sons.

Dans les années 1960, IBM a développé Shoebox – un système capable de reconnaître des chiffres et des commandes arithmétiques comme « plus » et « total ». Mieux encore, Shoebox pouvait transmettre le problème mathématique à une machine à additionner, qui calculait et imprimait la réponse².

1961 – Une démonstration de Shoebox d’IBM

Pendant ce temps, des chercheurs au Japon construisaient du matériel capable de reconnaître les parties constitutives de la parole comme les voyelles ; d’autres systèmes pouvaient évaluer la structure de la parole pour savoir où un mot pouvait se terminer. Et une équipe de l’University College en Angleterre pouvait reconnaître 4 voyelles et 9 consonnes en analysant les phonèmes, les sons discrets d’une langue¹.

Mais alors que le domaine faisait des pas en avant incrémentaux, il n’était pas nécessairement clair où le chemin se dirigeait. Et puis : une catastrophe.

Octobre 1969 – The Journal of the Acoustical Society of America

Un gel perçant

Le tournant s’est produit sous la forme d’une lettre écrite par John R. Pierce en 1969.

Pierce s’était depuis longtemps imposé comme un ingénieur de renommée internationale ; entre autres réalisations, il a inventé le mot transistor (désormais omniprésent dans l’ingénierie) et a participé au lancement d’Echo I, le tout premier satellite de communication. En 1969, il était cadre chez Bell Labs, qui avait beaucoup investi dans le développement de la reconnaissance vocale.

Dans une lettre ouverte³ publiée dans The Journal of the Acoustical Society of America, Pierce a exposé ses préoccupations. Citant un environnement de financement « luxuriant » au lendemain de la Seconde Guerre mondiale et du Spoutnik, et le manque de responsabilité qui en découle, Pierce a admonesté le domaine pour son manque de rigueur scientifique, affirmant qu’il y avait trop d’expérimentation sauvage en cours :

« Nous croyons tous qu’une science de la parole est possible, malgré la rareté dans le domaine des personnes qui se comportent comme des scientifiques et des résultats qui ressemblent à la science. » – J.R. Pierce, 1969

Pierce a joint le geste à la parole de son employeur : il a défait les programmes ASR de Bell, qui ne seront rétablis qu’après sa démission en 1971.

Les progrès continuent

Heureusement, il y avait plus d’optimisme ailleurs. Au début des années 1970, l’ARPA du ministère américain de la Défense (l’agence aujourd’hui connue sous le nom de DARPA) a financé un programme de cinq ans intitulé Speech Understanding Research. Cela a conduit à la création de plusieurs nouveaux systèmes ASR, dont le plus réussi était le Harpy de l’Université Carnegie Mellon, qui pouvait reconnaître un peu plus de 1000 mots en 1976.

1976 -Système de reconnaissance vocale Harpy de CMU

En attendant, les efforts d’IBM et des laboratoires Bell d’AT&T ont poussé la technologie vers d’éventuelles applications commerciales. IBM donnait la priorité à la transcription de la parole dans le contexte de la correspondance de bureau, et Bell s’intéressait aux scénarios de » commande et contrôle » : les précurseurs de la numérotation vocale et des arbres téléphoniques automatisés que nous connaissons aujourd’hui¹.

Malgré ces progrès, à la fin des années 1970, l’ASR était encore loin d’être viable pour tout ce qui n’était pas des cas d’utilisation très spécifiques.

Les années 80 : Markovs et plus

Un tournant clé s’est produit avec la popularisation des modèles de Markov cachés (HMMs) au milieu des années 80. Cette approche représentait un changement significatif « des méthodes simples de reconnaissance des formes, basées sur des modèles et une mesure de distance spectrale, à une méthode statistique pour le traitement de la parole »⁴ – ce qui s’est traduit par un bond en avant dans la précision.

Une grande partie de l’amélioration des systèmes de reconnaissance de la parole depuis la fin des années 1960 est due à la puissance de cette approche statistique, couplée aux progrès de la technologie informatique nécessaires pour mettre en œuvre les HMM.⁵

Les HMM ont pris l’industrie d’assaut – mais ils n’ont pas été un succès du jour au lendemain. Jim Baker les a d’abord appliqués à la reconnaissance vocale au début des années 1970 au CMU, et les modèles eux-mêmes avaient été décrits par Leonard E. Baum dans les années 60. Ce n’est qu’en 1980, lorsque Jack Ferguson a donné une série de conférences éclairantes à l’Institute for Defense Analyses, que la technique a commencé à se diffuser plus largement⁴.

Le succès des HMM a validé le travail de Frederick Jelinek au Watson Research Center d’IBM, qui, depuis le début des années 1970, préconisait l’utilisation de modèles statistiques pour interpréter la parole, plutôt que d’essayer de faire en sorte que les ordinateurs imitent la façon dont les humains digèrent le langage : par le sens, la syntaxe et la grammaire (une approche courante à l’époque). Comme Jelinek l’a dit plus tard : « Les avions ne battent pas des ailes. »⁹

Ces approches axées sur les données ont également facilité des progrès qui avaient autant à voir avec la collaboration et la responsabilité de l’industrie qu’avec des moments eurêka individuels. Avec la popularité croissante des modèles statistiques, le domaine de l’ASR a commencé à se rassembler autour d’une série de tests qui fourniraient une référence standardisée à laquelle se comparer. Cela a été encouragé par la publication d’ensembles de données partagées : de grands corpus de données que les chercheurs pouvaient utiliser pour former et tester leurs modèles.

En d’autres termes : il y avait enfin un moyen (imparfait) de mesurer et de comparer le succès.