検索
連載

開き直る人工知能 〜 「完璧さ」を捨てた故に進歩した稀有な技術Over the AI ―― AIの向こう側に(14)(1/9 ページ)

音声認識技術に対して、長らく憎悪にも近い感情を抱いていた筆者ですが、最近の音声認識技術の進歩には目を見張るものがあります。当初は、とても使いものにはならなかったこの技術は、なぜそこまでの発展を遂げられたのか――。そこには、「音声なんぞ完璧に聞き取れるわけない!」という、ある種の“開き直り”があったのではないでしょうか。

Share
Tweet
LINE
Hatena

今、ちまたをにぎわせているAI(人工知能)。しかしAIは、特に新しい話題ではなく、何十年も前から隆盛と衰退を繰り返してきたテーマなのです。にもかかわらず、その実態は曖昧なまま……。本連載では、AIの栄枯盛衰を見てきた著者が、AIについてたっぷりと検証していきます。果たして”AIの彼方(かなた)”には、中堅主任研究員が夢見るような”知能”があるのでしょうか――。⇒連載バックナンバー


音声認識技術 vs. 江端(音声案内編)

 私は、基本的に言語以外のコミュニケーション(身振り、手振り)で、多くの国で何とかしてきました(関連記事:「TOEICを斬る(後編) 〜“TOPIC”のススメ〜」)。

 もちろん、こんなやり方はビジネスでは通用しませんが、旅行程度であれば、世界中どこでもなんとかしてみせる ―― という、漠然とした自信が、私にはあります。ですので、特に英語によるコミュニケーションについては、私は「語彙数」を重視して、「発音」など本当にどうでもよいと思っていました。

 しかし、最近、私は、英語のコミュニケーションの「相手」を見誤っていたのではないか、と思っています。

それは、

―― 英語のコミュニケーションの相手は、「人間」ではなく「機械」である

ということです。

 米国赴任中、電話で飛行機の予約をしようとしたとき、英語をしゃべる自動電話応答システムが、私に次々と質問をしてきました。

 『ご希望のボタンを、次の1〜5の中から選んでください』と、まあ、この程度はよいのですが、『どの空港から、どの空港へ、何日の何時の飛行機に乗りたいのかをおっしゃってください』に対して、私は、手書きのメモに目を落としつつ、できるかぎりゆっくり、かつ、できうる限り正確な発音を心掛けて、自動電話応答システムに語りかけました。

 ところが、その自動音声システムは、いつも私にこう言ってきました。


 『申し訳ありません。聞き取れませんでした。もう一度おっしゃってください(I am sorry, but I cannot understand what you said now. Would you please try it again?)』


 しかも、同じ質問を3回繰り返された揚げ句、"Sorry, See you again." と言われて、一方的に電話を切られたのです。そして、そこには、電話の受話器を握り締めながら、ぼうぜんと立ちすくむ私がいました。

 私は、以前、コラム「エンジニアが英語を放棄できない「重大で深刻な事情」」で、「日本の製造メーカーですら、日本語のマニュアルを作らなくなった」というお話をしましたが、このようなトレンドが、自動電話応答システムにまで拡張しないと、誰が断定できるでしょうか。

 コールセンターの無人化(自動電話応答システムの導入)は、経費削減の観点から、今後も進み続けます。これは、システムのエンジニアとして断言できます。そして、その自動電話応答システムの「多言語対応」は、絶対に期待できません。多言語対応は膨大なコストが掛かるからです。どんな会社だって、対応言語を「1つ」にしたいと思うのは自然なことです。

 今後、生命保険、医療、その他の分野のサービスが日本への流入してくることは、時代の流れです。TPP(環太平洋パートナーシップ協定)の主要な加盟国であった某大国の大統領は「永久に離脱する」と明記した大統領令に署名しましたが、彼の就任期間が終わった翌日からTPP、あるいはTPPと実質的に同じ内容の協定交渉が再開するだろうと、私は踏んでいます(参考記事(外部媒体に移行します))。

 私たちが今考えなければならない問題は、今後、日本で展開されていく海外のサービス形態と、その海外のサービスに、既存の国内のサービスは勝てるか否か、ということです。

 そして、もし海外のサービスが勝者となる場合には、(1)膨大な経費をかけても「日本語」に対応する企業が勝つか、(2)「日本語」には対応しないが安価なサービスを提供できる企業が勝つかですが、現時点では、私には判断できません。

音声認識技術 vs. 江端(スマホのナビ編)

 私には、『スマホ(スマートフォン)なんぞは、しょせん、携帯するパソコンにすぎない』という思い込みがあり、徹底してガラケー(携帯電話機)にこだわってきましたが、ある日のこと、とある理由(著者のブログ)から、月額500円のデータ通信専用スマホと、音声通信用のガラケーの併用を始めました。

 そして、今年(2017年)のゴールデンウイーク、親戚の結婚式に出席するため、スマホの「Googleマップ」のカーナビ機能を使って結婚式場に向かったとき、本気の本気でビックリしました。


画像はイメージです

 超低速、月額500円のデータ通信専用スマホで、どうして、これだけ自然なリルートやバードビュー表示、自動地図拡大や縮小ができるのか ―― 今でも魔法を見ていたかのような気がします。

 ですが、それ以上に私が驚愕(きょうがく)したのは、Googleの音声認識機能でした。後述しますが、私は1999年に、ある事件に遭遇して以来、「音声認識」という技術を、全く信じなくなっていたからです。

 しかし、今回スマホに、その「結婚式場」の名称は当然として、母の介護老人保健施設の名称「老健 スギタ(ロウケン スギタ)」と、スマホに語りかけたとき、端末には「介護老人保健施設スギタ」の名称が表示され、スマホの地図上にその場所がドンピシャで示されていました。

 その時の私の反応は、「びっくりした」などというレベルではなく、「腰が抜けた」といっても良いものでした。1999年の段階であれば、ロウケン スギタ」は「老犬過ぎた」と表示されていたはずです。


 ―― 私が、「音声認識技術は使いものにならない」と決めつけた後の世界に、一体何があったのだ?


 では、今回の「Over the AI ―― AIの向こう側に」、始めていきたいと思います。

Copyright © ITmedia, Inc. All Rights Reserved.

       | 次のページへ
ページトップに戻る