音声認識技術も、希望と絶望を(少なくとも一巡)繰り返した技術ではありますが、他のAI技術と違い、(特定IT企業のみが有する膨大なコンピュータパワーを使い倒してはいるものの)ほぼ私たちが望むレベルに達したという、稀有(けう)な、そして、幸運な技術と言えそうです。
このことは、もっと世間に評価されても良いはずです。しかし、冒頭のトレンドデータからは、この音声認識技術が、大騒ぎされているという傾向は読み取れません。
私は、ここに、以前私が提示した、AI技術に対する世間の評価の姿勢が見られるような気がするのです。
つまり ――
ひとたび、実用化されてしまえば、AI技術として認識されなくなる
ということであり、私は、今でもこの現実に腹立たしい思いをしています。
誰であれ、技術の恩恵を受けたなら、その技術の開発者に最大級の敬意と賛辞を贈るべきだと思うのです。
特に、わが国は、エンジニアの成果に対する敬意と賛辞(と金銭的報酬)に、著しく欠けていると思うのですよ*)。
*)ぜひ、ご一読ください。著者のブログより「「名誉」のフリーライド(ただ乗り)
ねえ、そう思いますよね。エンジニアの皆さん。
それでは、今回のコラムの内容をまとめてみたいと思います。
【1】冒頭にて、米国赴任時に、航空会社の自動電話応答システムで、一方的に無視されたという、忌々しい(いまいましい)江端の黒歴史と、今年のゴールデンウイークに、Googleの音声認識技術に「腰を抜かす」程に驚いた、というお話をしました。
【2】音声認識技術は、1999年PC用音声認識ソフトの大失敗で、冬の時代に突入し、10年の月日を経た後、一気に実用化に成功して今日に至った ―― という、江端の音声認識技術の歴史観をご紹介しました。
【3】「音声」は、(1)周波数単位に分解できる音の波(音波)の集合体であって(2)人間ごとに、別々の楽器から出てくる音のようなものであることを説明し、最低最悪の情報伝達信号であることを明らかにしました。
【4】音声認識技術とは、別々の楽器から出てくるどんな音であっても、そこから、文字に変換しなければならないという、とてつもなく難しい技術であることを、その1つの技術であるMFCC法を例として説明しました。
【5】しかし、「音声認識技術」は、恐しく面倒で地道な努力を続ける割に、その努力に比例してその認識率が一向に向上する訳でもない、という、研究者やエンジニアにとっては、苦行とも言える作業が必要となることを説明しました。
【6】Googleの音声認識技術のキモが「音声は聞き取れなくて当然」という開き直りにあり、「それならば、聞き取れない音節を『先読み』してやれば良い」という逆転の発想にある、という江端の理解を明らかにしました。
【7】最後に、「音声認識技術の実用化を、もっと多くの人が絶賛し称賛すべきであり」「技術の恩恵を受けたなら、その技術の開発者に最大級の敬意と賛辞を贈るべきだ」という江端の熱い思いを語りました。
Copyright © ITmedia, Inc. All Rights Reserved.