ASR: 自動音声認識の歴史

Descript は、近年の自動音声認識 (ASR) の進歩によって実現された新世代のクリエイティブなソフトウェアの一部であることを誇りに思います。 このテクノロジーは最近、その長年の約束を顕著な実用性に置き換える閾値を超え、さらに良くなる一方です。

この瞬間は長い間待っていました。 音声認識の背後にあるテクノロジーは、半世紀以上にわたって開発され、何度か激しい期待と失望の時期を経験してきました。 では、ASR を商用アプリケーションで使用できるようにするために何が変わったのでしょうか。

音声認識のストーリーは、生のテクノロジーの開発と同じくらい、さまざまなアプローチの適用に関するものですが、この 2 つは密接に関連しています。 何十年にもわたり、研究者たちは、音や構造、そして統計を使って言語を分析する無数の方法を考え出しました。しかし、先人たちが ASR として認識できるものを作り上げたのは、20 世紀半ばのことでした。

1961 – IBM Showbox

初期のプロジェクトに属するのは Audrey という「数字認識装置」であり、1952 年に Bell Laboratories で研究者によって作られました。 Audrey は、音のエッセンスを抽出したフォルマント¹ と呼ばれる音声の指紋を探すことで、話された数字の数字を認識できました。

1960年代、IBM は数字と「プラス」「合計」などの算術コマンドを認識するシステム、Shoebox を開発しました。 さらに、Shoebox は数学の問題を加算機に渡すことができ、加算機はその答えを計算して印刷しました。 また、イギリスのユニバーシティ・カレッジのチームは、言語の音素を分析することにより、4 つの母音と 9 つの子音を認識することができました。 そして、災難でした。

October 1969 – The Journal of the Acoustical Society of America

A Piercing Freeze

転機はジョン R. が書いた手紙というかたちで訪れました。

ピアースは、国際的に有名なエンジニアとして長い間地位を確立しており、その他の業績として、彼はトランジスタという言葉を作り出し(今では工学界でいたるところにある)、史上初の通信衛星であるエコーIの打ち上げに貢献しました。 1969 年までに彼はベル研究所の重役となり、音声認識の開発に大規模な投資を行いました。

The Journal of the Acoustical Society of America に掲載された公開書簡で、Pierce は自分の懸念を表明しました。 第二次世界大戦とスプートニク後の「豊かな」資金調達環境と、その説明責任の欠如を挙げ、Pierce はこの分野の科学的厳密さの欠如を戒め、あまりに乱暴な実験が行われていると主張しました。 – ピアース、1969年

彼は雇用主の金を自分の口に当てました:彼はベル社の ASR プログラムを廃止し、1971年に彼が辞任した後まで復活しませんでした。 1970年代初頭、アメリカ国防総省のARPA(現在のDARPAと呼ばれる機関)は、「Speech Understanding Research」という5年間のプログラムに資金を提供しました。 その中で最も成功したのが、カーネギーメロン大学のHarpyで、1976年までに1000語強を認識することができました。

1976 – CMUのHarpy音声認識システム

一方、IBMとAT&Tのベル研究所は、技術を商業用途に向けて推進する取り組みを行いました。 IBM はオフィスでの通信の文脈での音声トランスクリプションを優先し、ベル社は「コマンド アンド コントロール」シナリオ、つまり今日知られている音声ダイヤルや自動電話交換機の前身に関心を寄せていました1。

このような進歩にもかかわらず、1970 年代の終わりには、ASR は非常に特殊なユースケース以外ではまだ実現不可能な状態になっていました。 Markovs and More

重要な転機は、1980 年代半ばに隠れマルコフモデル (HMM) が一般化したことです。 このアプローチは、「テンプレートとスペクトル距離測定に基づく単純なパターン認識方法から、音声処理のための統計的方法への重要なシフト」⁴であり、精度の飛躍的な向上につながりました。

1960 年代後半以降の音声認識システムの改良の大部分は、この統計的アプローチの力と、HMM の実装に必要なコンピュータ技術の進歩に起因しています。 Jim Baker は 1970 年代初頭に CMU で音声認識に初めて適用し、モデル自体は 60 年代に Leonard E. Baum によって発表されました。 この技術がより広く普及し始めたのは、1980年にJack FergusonがInstitute for Defense Analysesで一連の有益な講義を行ったときからです。

こうしたデータ駆動型のアプローチにより、個人的な発見と同様に、業界の協力と説明責任に関連する進歩も促進されました。 統計モデルの人気が高まるにつれ、ASR 分野は、比較するための標準化されたベンチマークを提供する一連のテストにまとまり始めました。 これは、研究者がモデルの訓練とテストに使用できる大規模なデータ コーパスの共有データ セットのリリースによってさらに促進されました。

コメントを残す

メールアドレスが公開されることはありません。