Eine kurze Geschichte der ASR: Automatische Spracherkennung

Descript ist stolz darauf, Teil einer neuen Generation kreativer Software zu sein, die durch die jüngsten Fortschritte in der automatischen Spracherkennung (ASR) ermöglicht wird. Es ist eine aufregende Zeit: Die Technologie hat kürzlich eine Schwelle überschritten, die ihr langjähriges Versprechen in einen bemerkenswerten Nutzen umwandelt, und sie wird immer besser.

Dieser Moment hat lange auf sich warten lassen. Die Technologie, die der Spracherkennung zugrunde liegt, befindet sich seit über einem halben Jahrhundert in der Entwicklung und durchlief mehrere Phasen mit großen Versprechungen – und Enttäuschungen. Was hat sich also geändert, um ASR für kommerzielle Anwendungen nutzbar zu machen? Und was genau konnten diese Systeme leisten, lange bevor irgendjemand von Siri gehört hatte?

Die Geschichte der Spracherkennung dreht sich ebenso sehr um die Anwendung verschiedener Ansätze wie um die Entwicklung der Rohtechnologie, obwohl die beiden untrennbar miteinander verbunden sind. Im Laufe der Jahrzehnte fanden Forscher unzählige Möglichkeiten, Sprache zu zerlegen: nach Lauten, nach Strukturen – und mit Hilfe von Statistiken.

Das Interesse der Menschen an der Erkennung und Synthese von Sprache reicht Hunderte von Jahren zurück (mindestens!) – aber erst in der Mitte des 20. Jahrhunderts haben unsere Vorfahren etwas entwickelt, das man als ASR bezeichnen kann.

1961 – IBM Shoebox

Zu den frühesten Projekten gehörte ein „Ziffernerkenner“ namens Audrey, der 1952 von Forschern der Bell Laboratories entwickelt wurde. Audrey konnte gesprochene numerische Ziffern erkennen, indem es nach Audio-Fingerabdrücken suchte, die Formanten¹ genannt wurden – die destillierten Essenzen von Klängen.

In den 1960er Jahren entwickelte IBM Shoebox – ein System, das Ziffern und arithmetische Befehle wie „plus“ und „Summe“ erkennen konnte. Noch besser: Shoebox konnte die Rechenaufgabe an eine Rechenmaschine weitergeben, die die Antwort errechnete und ausdruckte².

1961 – Eine Demonstration von IBMs Shoebox

In der Zwischenzeit bauten Forscher in Japan Hardware, die die Bestandteile von Sprache wie Vokale erkennen konnte; andere Systeme konnten die Struktur von Sprache auswerten, um herauszufinden, wo ein Wort enden könnte. Und ein Team am University College in England war in der Lage, 4 Vokale und 9 Konsonanten zu erkennen, indem es Phoneme, die einzelnen Laute einer Sprache¹, analysierte.

Aber auch wenn das Feld schrittweise vorankam, war nicht unbedingt klar, wohin der Weg führen würde. Und dann: eine Katastrophe.

Oktober 1969 – The Journal of the Acoustical Society of America

A Piercing Freeze

Der Wendepunkt kam in Form eines Briefes von John R. Pierce im Jahr 1969.

Pierce hatte sich längst als Ingenieur von internationalem Ruf etabliert; unter anderem prägte er das Wort Transistor (heute in der Technik allgegenwärtig) und half beim Start von Echo I, dem ersten Kommunikationssatelliten überhaupt. Bis 1969 war er leitender Angestellter bei Bell Labs, das viel in die Entwicklung der Spracherkennung investiert hatte.

In einem offenen Brief³, der im Journal of the Acoustical Society of America veröffentlicht wurde, legte Pierce seine Bedenken dar. Unter Berufung auf die „üppige“ Finanzierung nach dem Zweiten Weltkrieg und dem Sputnik und die fehlende Rechenschaftspflicht mahnte Pierce das Feld für seinen Mangel an wissenschaftlicher Strenge an und behauptete, dass es zu viele wilde Experimente gäbe:

„Wir alle glauben, dass eine Wissenschaft der Sprache möglich ist, trotz des Mangels an Menschen, die sich wie Wissenschaftler verhalten, und an Ergebnissen, die wie Wissenschaft aussehen.“ – J.R. Pierce, 1969

Pierce ließ den Worten seines Arbeitgebers Taten folgen: Er stellte die ASR-Programme von Bell ein, die erst nach seinem Rücktritt 1971 wieder aufgenommen wurden.

Der Fortschritt geht weiter

Glücklicherweise herrschte anderswo mehr Optimismus. In den frühen 1970er Jahren finanzierte die ARPA des US-Verteidigungsministeriums (die Agentur, die heute als DARPA bekannt ist) ein fünfjähriges Programm mit dem Namen Speech Understanding Research. Dies führte zur Entwicklung mehrerer neuer ASR-Systeme, von denen das Harpy der Carnegie Mellon University das erfolgreichste war, das bis 1976 etwas mehr als 1000 Wörter erkennen konnte.

1976 -CMU’s Harpy Speech Recognition System

In der Zwischenzeit trieben die Bemühungen von IBM und AT&T’s Bell Laboratories die Technologie in Richtung möglicher kommerzieller Anwendungen. IBM konzentrierte sich auf die Sprachtranskription im Zusammenhang mit der Bürokorrespondenz, und Bell befasste sich mit „Befehls- und Kontrollszenarien“: den Vorläufern der Sprachwahl und der automatisierten Telefonbäume, die wir heute kennen¹.

Trotz dieses Fortschritts war ASR Ende der 1970er Jahre noch weit davon entfernt, für andere als hochspezifische Anwendungsfälle brauchbar zu sein.

Das tut mir auch weh.

Die 80er Jahre: Markovs and More

Ein entscheidender Wendepunkt kam mit der Popularisierung von Hidden Markov Models (HMMs) Mitte der 1980er Jahre. Dieser Ansatz stellte einen bedeutenden Wechsel „von einfachen Mustererkennungsmethoden, die auf Schablonen und einem spektralen Abstandsmaß basieren, zu einer statistischen Methode für die Sprachverarbeitung“⁴ dar, was zu einem sprunghaften Anstieg der Genauigkeit führte.

Ein großer Teil der Verbesserung von Spracherkennungssystemen seit den späten 1960er Jahren ist auf die Leistungsfähigkeit dieses statistischen Ansatzes zurückzuführen, gekoppelt mit den Fortschritten in der Computertechnologie, die für die Implementierung von HMMs erforderlich sind.⁵

HMMs eroberten die Branche im Sturm – aber sie waren kein Erfolg über Nacht. Jim Baker wandte sie erstmals in den frühen 1970er Jahren an der CMU auf die Spracherkennung an, und die Modelle selbst wurden bereits in den 60er Jahren von Leonard E. Baum beschrieben. Erst 1980, als Jack Ferguson am Institute for Defense Analyses eine Reihe aufschlussreicher Vorträge hielt, begann sich die Technik weiter zu verbreiten⁴.

Der Erfolg der HMMs bestätigte die Arbeit von Frederick Jelinek am Watson Research Center von IBM, der seit den frühen 1970er Jahren für die Verwendung statistischer Modelle zur Interpretation von Sprache plädiert hatte, anstatt zu versuchen, Computer dazu zu bringen, die Art und Weise nachzuahmen, wie Menschen Sprache verdauen: durch Bedeutung, Syntax und Grammatik (ein damals üblicher Ansatz). Wie Jelinek es später ausdrückte: „Flugzeuge schlagen nicht mit den Flügeln.“⁹

Diese datengesteuerten Ansätze ermöglichten auch Fortschritte, die ebenso viel mit der Zusammenarbeit und Verantwortlichkeit der Industrie zu tun hatten wie mit individuellen Heureka-Momenten. Mit der zunehmenden Popularität statistischer Modelle begann sich die ASR-Branche auf eine Reihe von Tests zu konzentrieren, die einen standardisierten Vergleichsmaßstab bieten sollten. Dies wurde durch die Freigabe gemeinsam genutzter Datensätze weiter gefördert: große Datenbestände, die Forscher zum Trainieren und Testen ihrer Modelle verwenden konnten.

Mit anderen Worten: Endlich gab es eine (unvollkommene) Möglichkeit, den Erfolg zu messen und zu vergleichen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.