AIで複数の同時音声を分離、再現率は驚異の90%:深層学習で音声の分け方を学ぶ
三菱電機は研究成果披露会で、同社独自のAI技術「ディープクラスタリング」を用いた音声分離技術を発表した。この技術では、マイク1本で録音した複数話者の同時音声を分離し、きれいに再現できる。従来の技術では原音再現率が51%だったが、三菱電機の音声分離技術の場合90%以上となる。
答えではなく、解き方を学ぶ
スマートフォンやカーナビなどの音声認識機能は、雑音や複数の人の声が混じると正しく機能しないことが多い。音を聞き分けて再現する技術自体は既に存在するが、精度の面でまだ十分とはいえない。マイク1本で取得した音声を分離し再現する技術の場合は特にだ。
三菱電機が同社独自のAI技術「ディープクラスタリング」を用い、音声分離技術を開発したのにはこのような背景がある。三菱電機は2017年5月24日の研究成果発表会で、マイク1本で録音した複数話者の同時音声を分離し、きれいに再現する様子を披露した。
ディープクラスタリングとは、ディープラーニングとクラスタリングを組み合わせたものだ。三菱電機が開発した音声分離技術は、複数話者の同時音声の成分をクラスタリング(分類)し、分類した成分をそれぞれのクラスタで合成することで、各話者の音声を再現する。音声成分の分類は、抑揚や音の流れといった音声特徴の類似をもとに行う。
一方、特徴の類似をもとに音声を分離する“仕方”を学ぶのがディープラーニングの役目だ。人工知能を活用した従来の音声分離システムの場合、音声の特徴がどの話者に帰属するかを学んでいた。つまり、答えを丸暗記していたのだ。そのため、学習済みでない音声の識別ができなかった。しかし、三菱電機の音声分離技術はディープラーニングで、音声の特徴を分類する仕方そのものを学ぶ。答えではなく解き方を学ぶため、初めて対応する音声でも的確に処理することができる。
三菱電機の音声分離技術は、音声を話者に結び付けて学ぶわけではないので、話者の性別や言語に依存しない。いかなる話者相手でも、2者の同時音声を分離した場合、90%以上の原音再生率を発揮できる。従来の技術では51%だった。一方、3者の同時音声を分離した場合、原音再生率は80%以上となる。また、学ばせさえすれば、人の声だけでなく雑音の分離も可能だ。
三菱電機の説明員は、「ディープクラスタリングをカーナビの音声認識機能に応用すれば、音声入力中に同乗者の声や車の走行音が混じったとしても、カーナビはドライバーの音声だけを分離して認識できるようになる」と語っている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- NXP、音声認識技術でAmazonと協業
NXP Semiconductorsは、Amazonが提供するクラウドベースの音声認識サービス「Amazon Alexa」に対応した機器の開発を簡素化することができる「NXPリファレンスプラットフォーム」を発表した。 - Googleが語る、ニューラルネットワーク
Googleのシニアフェローは「SIGMOD 2016」で、ニューラルネットワークや機械学習について語った。コンピュータリソースやデータ量は十分にあるので、あとは“そのデータをいかに理解するか”が重要だという。 - 指でなぞると話した言葉が軌跡になるUI技術
三菱電機は、話した言葉を指でなぞった軌跡に表示できる音声認識表示技術「しゃべり描きUI」を開発したと発表した。お絵かきや多言語翻訳などの機能を組み合わせることで、手話/外国語ができなくても、聴覚障がい者や外国人との円滑なコミュニケーションを実現できるという。 - ニュアンスの車内通話機能、メルセデスが採用
ニュアンス コミュニケーションズ ジャパン(以下、ニュアンス)は、独自の車載向け音声信号処理技術「VoCon SSE」と、その応用製品「In-Car Communication(ICC)」について、技術説明会とICC機能搭載車両への試乗会を行った。 - 運転者の好みを学習する車載向けAI技術
ニュアンス・コミュニケーションズ・ジャパンは、車載インフォテインメント向け人工知能(AI)技術について、記者説明会を開催した。 - NEC「予測の根拠を説明できる人工知能」を強化
NECは2016年5月26日、大規模なデータから多数の規則性を発見しさまざまな事象の予測/処方分析が行える独自の人工知能技術「異種混合学習技術」を、分散処理に対応させたと発表した。従来よりも規模の大きなデータを高速に扱えるようになり同技術の応用範囲が広がるという。