Descript ist stolz darauf, Teil einer neuen Generation kreativer Software zu sein, die durch die jüngsten Fortschritte in der automatischen Spracherkennung (ASR) ermöglicht wird. Es ist eine aufregende Zeit: Die Technologie hat kürzlich eine Schwelle überschritten, die ihr langjähriges Versprechen in einen bemerkenswerten Nutzen umwandelt, und sie wird immer besser.
Dieser Moment hat lange auf sich warten lassen. Die Technologie, die der Spracherkennung zugrunde liegt, befindet sich seit über einem halben Jahrhundert in der Entwicklung und durchlief mehrere Phasen mit großen Versprechungen – und Enttäuschungen. Was hat sich also geändert, um ASR für kommerzielle Anwendungen nutzbar zu machen? Und was genau konnten diese Systeme leisten, lange bevor irgendjemand von Siri gehört hatte?
Die Geschichte der Spracherkennung dreht sich ebenso sehr um die Anwendung verschiedener Ansätze wie um die Entwicklung der Rohtechnologie, obwohl die beiden untrennbar miteinander verbunden sind. Im Laufe der Jahrzehnte fanden Forscher unzählige Möglichkeiten, Sprache zu zerlegen: nach Lauten, nach Strukturen – und mit Hilfe von Statistiken.
Das Interesse der Menschen an der Erkennung und Synthese von Sprache reicht Hunderte von Jahren zurück (mindestens!) – aber erst in der Mitte des 20. Jahrhunderts haben unsere Vorfahren etwas entwickelt, das man als ASR bezeichnen kann.
Zu den frühesten Projekten gehörte ein „Ziffernerkenner“ namens Audrey, der 1952 von Forschern der Bell Laboratories entwickelt wurde. Audrey konnte gesprochene numerische Ziffern erkennen, indem es nach Audio-Fingerabdrücken suchte, die Formanten¹ genannt wurden – die destillierten Essenzen von Klängen.
In den 1960er Jahren entwickelte IBM Shoebox – ein System, das Ziffern und arithmetische Befehle wie „plus“ und „Summe“ erkennen konnte. Noch besser: Shoebox konnte die Rechenaufgabe an eine Rechenmaschine weitergeben, die die Antwort errechnete und ausdruckte².
In der Zwischenzeit bauten Forscher in Japan Hardware, die die Bestandteile von Sprache wie Vokale erkennen konnte; andere Systeme konnten die Struktur von Sprache auswerten, um herauszufinden, wo ein Wort enden könnte. Und ein Team am University College in England war in der Lage, 4 Vokale und 9 Konsonanten zu erkennen, indem es Phoneme, die einzelnen Laute einer Sprache¹, analysierte.
Aber auch wenn das Feld schrittweise vorankam, war nicht unbedingt klar, wohin der Weg führen würde. Und dann: eine Katastrophe.