開き直る人工知能 〜 「完璧さ」を捨てた故に進歩した稀有な技術:Over the AI ―― AIの向こう側に(14)(4/9 ページ)
音声認識技術に対して、長らく憎悪にも近い感情を抱いていた筆者ですが、最近の音声認識技術の進歩には目を見張るものがあります。当初は、とても使いものにはならなかったこの技術は、なぜそこまでの発展を遂げられたのか――。そこには、「音声なんぞ完璧に聞き取れるわけない!」という、ある種の“開き直り”があったのではないでしょうか。
「音声」とは、最低最悪の情報伝達信号である
ここからは後半になります。この連載の後半は、「私の身の回りの出来事」を使った、「数式ゼロ」のAI解説になります。
本日は、前半に引き続き「音声認識技術」についての概要をお話したいと思います。
まず、音声認識技術は、音声合成技術とは違います。
音声合成技術とは、「声を作る」技術です。具体的には、自分の作った楽曲を、パソコンに歌わせたり、原稿を読み上げさせたりするものです。ボーカロイド「初音ミク」(参考記事(外部媒体に移行します))や、ボイスロイド「結月ゆかり」(参考記事(外部媒体に移行します))などが該当します。
音声認識技術は、その逆です。
私たち人間が喋っている音声を、文字に変換する技術です。これは、「声を作る」よりもはるかに難しいです。しかも、特定の人物の音声だけでなく、不特定多数の人物に対応しなければならないので、そのハードルはさらに高くなります(まあ、1950年から研究され続けて、70年の時を経て、ようやく最近、検索エンジンなどで使えそうなものになった、という点から見ても、その難しさは明らかです)。
まず、音声認識技術の前に、「音声」について簡単に説明します。
「音声」とは、情報量が少なく、エラー率は高く、おまけに効率の悪い、最低最悪の情報伝達信号です。
さらに、情報の送受信システムとしても、最悪と断言できます。
信号送信装置である「のど」は、呼吸器官と連動させながら、のど(声帯)を振動させなければなりません。その振動回数は、1秒間に数百回程度にもなり、その振動をミリ秒単位で変化させ続ける必要があるのです。
信号伝達媒体である「空気」は、情報の伝達方向をコントロールすることができません(セキュリティ性ゼロ)、そして、その伝達距離はせいぜい数メートル程度、20mを超えるのは難しいでしょう(例:2人の人間が、25mプールの両端に立って会話することを考えれば、明らかです)。
信号受信装置である「鼓膜」は、空気の微小の圧力変化を感知しなければならないので、受信エラーが頻繁に発生します。また、「鼓膜」には、チューナー(選択受信機能)が内蔵されていないので、特定の話者を選択して受信することはできません。どんな音声であれ受信してしまうので、情報処理のやりにくいこと、この上もありません。
さらに、1時間の深夜ラジオを、1秒に圧縮して伝達し、後で、脳の中で解凍、再生するなどの技も使えません ―― はっきりいって不便です。
これだけでも、「音声」が、取り扱いが難しい情報伝達信号であることが分かります。
それでも、音声から話者を特定できるのは、人間の音声には、それぞれバラバラの特徴があるからです。これを「声紋」といいます(潜水艦のモーター音から、潜水艦を特定する場合には「音紋」と言われますが、基本的に同じモノです)。
音声というのは、基本的に複数の基本周波数の音(音声スペクトル)の集合でできています*)。
*)正確には「どんな音声であれ、基本周波数の音に分解することができる」が正しいです。
同じ曲をピアノで演奏してもらって演奏者を特定することと、同じ歌を歌ってもらって歌手を特定することの、どちらが簡単かは言うまでもありません。私たちは生まれながらにして、“世界でたった1つの異なる楽器”を持っているからです。
下図は、音声を声紋画像に変換したり、スペクトルを表示したりできるフリーソフトウェア「声紋」を使って、ボイスロイド「結月ゆかり」で作った声を、解析している様子を示しています。
音節単位(例:「エ」とか「バ」とか「タ」)の音声波形(上図)が、周波数スペクトルに変換され(中図)、さらにそれを時間軸方向に並べてられたもの(下図)があります。この一番下の図を「声紋(または音紋)」と言います。
実際に、このソフトウェアが、音声から「声紋」を作成している様子を動画でご覧いただきます。
このように、音声というのは、(1)周波数単位に分解できる音の波(音波)の集合体であって(2)人間ごとに、その音声の性質は全く異なるものになる(別々の楽器から出てくる音のようなもの)、ということを覚えておいてください。
そして「音声認識技術」とは、いわば、別々の楽器から出てくるどんな音であっても、そこから、文字に変換しなければならないという ―― 人間にとっては朝飯前*)のことであっても ―― コンピュータにとっては、とてつもなく難しい技術なのです。
*)英語などの外国語は聞き取れないから、私には、朝飯前でもないですが。
Copyright © ITmedia, Inc. All Rights Reserved.