メディア

無指向性マイク4つで正面の音のみ拾う、OKIが小型音源分離モジュール開発オーディオ処理技術

» 2009年06月29日 14時00分 公開
[前川慎光,EE Times Japan]

 OKIは、テレビ会議システムや車載機器、携帯型電子機器、家電といったさまざまな機器に向けた音源分離アルゴリズムと、これを実装した組み込み型モジュールを開発した(図1)。音源分離とは、複数の音源が存在する環境で、所望の音のみを分離して抽出する処理である。テレビ会議システムや携帯端末に組み込めば、周囲で騒音(雑音)があった場合にもそれを抑制できる。

 音源分離処理をする際の前提は、モジュールに対して正面から到来する音が所望の音(話者の声)で、それ以外の方向から到来する音を雑音と見なす、というものである(図2)。正面から到来する話者の声のみを効率良く抽出する仕組みが新しい。従来の一般的な技術と比べた特長は、主に2つある。1つ目は、処理遅延が80msと短いこと。テレビ会議システムなどに、音源分離処理を組み込んだ場合でも、会話の流れが阻害されることがないとする。2つ目は音源を分離する際の演算量が少なく、携帯型端末のソフトウエアとして搭載可能な規模であることである。このほか、外形寸法が4.5cm×4.5cm×1cmのモジュールに、音源分離に必要な機能をすべて搭載したことも特長だとする。

図1 図1 組み込み型モジュール 外形寸法4.5cm×4.5cm×1cmの音源分離モジュールである。4つのMEMSマイクを使って、入力信号に遅延を付加することでマイク全体の指向性を調整する。出典:OKI
図2 図2 左右方向の指向性を弱める 音源分離モジュールの正面から到来した目的音のみを抽出するために、左右方向の指向性は弱め、正面方向の指向性を強める。出典:OKI

 現在、音源分離には「独立成分分析(ICA)」と呼ぶ信号処理手法を採るのが一般的である。ただし、演算量が膨大であることや、音源分離処理を適応させるための時間だけ遅延が生じることが課題であるという。同社研究開発センタのヒューマンコミュニケーションラボラトリ 音響メディア処理研究チームでチームマネージャを務める矢頭隆氏は、「音源分離技術は、携帯型電子機器やテレビ会議システムでの雑音抑制のみならず、音声認識機能の入力部で重要な役割を担う」と説明する。例えば話者以外の音声がある状況で、話者の音声だけを認識させようとしても難しい。「将来、さまざまな電子機器に音声認識機能が組み込まれるだろう。例えば、音声リモコンで家電を操作する、といった具合である。人の声の音源が複数ある、周囲からの雑音が大きいといった環境では、音源分離技術の導入は不可欠だ」(同氏)

 現在は開発した音源分離モジュールの動作を確認した段階であり、今後製品化に向けた取り組み進める。音源分離アルゴリズムを知的財産(IP)として提供することも検討している。なお、開発した音源分離モジュールは、早稲田大学工学部コンピュータ・ネットワーク工学科の知覚情報システム研究室で教授を務める小林哲則氏と共同で開発した。

 遅延付加して指向性設定

 開発した音源分離モジュールでは、無指向性マイクを4つ組み合わせ、マイク全体に十分な指向性を持たせている(図3)。無指向性マイクそのものは、一般的なMEMSマイクである。ただし、マイクに入力された信号を所定時間だけ遅延させ、差分を採ることで、マイク全体の指向性を調整する(図4)。目的音のみを抽出するための基本的なアイデアは、雑音の到来方向に対して指向性を弱め(すなわち、音を拾わない)、さらに正面(マイクを実装したモジュール面の法線方向)に対しては指向性を強めるというものだ。

図3 図3 音源分離処理のブロック図 音源分離処理のブロック図である。出典:OKI
図4 図4 入力された音声信号の位相を調整 指向性を形成するために、マイクから入力された信号を遅延させる。遅延量は、どのような指向性を形成するかに依存する。出典:OKI

 具体的に説明しよう。モジュール構成を簡略化して2つのマイクを横方向に並べて使用したときを例に採る。2つのマイクから得られる入力のうち、片方のみに遅延を付加して差分を取りことで指向性が異なる2つのパターンを形成する。パターン1は、正面に向かって右のマイク入力にのみ遅延を付加して左方向の指向性を強めたもの。右方向の妨害波をひろわない。パターン2は、逆に右方向に指向性を強めたもので、左方向の妨害波をひろわない(図5)。このほか、2つのマイク入力とも遅延を付加せずに差分を取るパターン3を形成する。このパターン3は左右方向の指向性が強まり、正面方向が死角となる。

図5 図5 差分を採って指向性を形成 周囲雑音を拾うために、正面方向の指向性を弱めたパターンを用意する。2つのマイク入力の差分を取ることで形成する。出典:OKI

 その上で、パターン1で得られる出力とパターン2で得られる出力を比較して、出力値が小さいものを次の段階の処理に使う。例えば、右方向から妨害波が到来した場合は、右方向の音をひろわないパターン1の出力が抑圧されて小さくなる。すなわち、出力値が小さい出力の方が、妨害波を多く抑圧できていることを意味する。その後、パターン1とパターン2を比較して得られた出力と、正面方向の音をひろわないパターン3の出力との差分を取る。この処理は、正面方向に対して鋭い指向性を形成していることに相当する。

 仮に、パターン1とパターン2の出力を比較して得られた出力に比べて、正面からの音をひろわないパターン3の出力が大きければ、目的音が音源から発せられていない無音区間であると見なせる。従って、この場合の出力は利用しない。

 以上の説明では簡略化のために2つのマイクを使った場合を例に挙げたが、4つのマイクを利用することで、左右方向のみならず、上下方向から到来する雑音を抑制できる。

 開発した音源分離モジュールを使えば、「テレビやラジオからの音楽や周囲の人の声といった指向性雑音と目的音を分離するだけではなく、周囲環境の騒音といった拡散性雑音も抑制可能である」(矢頭氏)という。放射性雑音に関しては、雑音抑制手法として一般的に利用されている「ウィナー・フィルタ(Wiener Filter)」と呼ぶ処理を利用した。なお、正面方向から到来する目的音のみを得るために、指向性マイクを使うことも可能である。ただし、この方法については、部品コストが高いことに加えて、指向性マイク単体での指向性はそこまで強くないと説明した。

Copyright © ITmedia, Inc. All Rights Reserved.

RSSフィード

公式SNS

All material on this site Copyright © ITmedia, Inc. All Rights Reserved.
This site contains articles under license from AspenCore LLC.