複数の話者や話題が混ざった音声から特定の音声を切り分ける音源分離は50年以上にわたって研究されてきた。これまでは音の聞こえる方向や声の周波数など、音声信号自体の物理的な特徴が用いられてきたが、CS研はそうした音声信号自体ではなく、そこに内在する意味、概念を手がかりにする研究を発表した。混合音声を概念でフィルタリングし、指定した概念に関連する音声を分離抽出する技術「ConceptBeam」だ。どのような概念をフィルターとして用いるかは、画像や音声で指定できる。
概念を音源分離のフィルターとして使うためには、定量化して数値(ベクトル)にする必要がある。この研究では画像や音声を基に、「白い」「雲」「風車」といった、さまざまな概念を集め、それらをベクトル化して配置した特徴空間を構築した。 似た意味を持つ情報、例えば「ブロッコリーの写真」と「『ミニトマトと合う野菜』と話す音声」は、ベクトルとしては特徴空間上で近くに存在する。特徴空間は、スポーツの実況中継のように、映像と音声に関連性があるかないかが既に分かっているデータを使って構築したという。
音声を解析してテキストに変換する従来の音声認識は、話者が複数いる場合には精度が大きく低下するという課題があったが、音声信号自体を用いずその意味に着目することで、大幅に精度を向上させたという。今後の活用方法としては、サイレンのような重要な音だけを通すノイズキャンセリングヘッドフォンや、心雑音を分離して疾患の早期発見につなげる聴診器などが考えられる。
Copyright © ITmedia, Inc. All Rights Reserved.