メディア

エッジ上でキーワード検出&話者認識できるAI、東芝「世界初」とする新AI技術

東芝は2020年2月20日、処理能力に制約があるエッジデバイス上でも高速で動作する音声キーワード検出機能付き話者認識AIを「世界で初めて」(同社)開発した、と発表した。このAI技術によってネットワーク接続していない家電などのエッジデバイスでも3回の発話で話者登録ができ、音声による操作や話者に合わせた機器の動きの変更が可能になるという。

» 2020年02月25日 09時30分 公開
[永山準EE Times Japan]

 東芝は2020年2月20日、処理能力に制約があるエッジデバイス上でも高速で動作する音声キーワード検出機能付き話者認識AIを「世界で初めて」(同社)開発した、と発表した。このAI技術によってネットワーク接続していない家電などのエッジデバイスでも3回の発話で話者登録ができ、音声による操作や話者に合わせた機器の動きの変更が可能になるという。

「世界初」を実現した2つのポイント

 東芝はこの技術には2つの特長がある、と説明している。1つ目の特長は、キーワード検出で用いた情報の活用だ。音声が入力されると、キーワード検出のニューラルネットワークで周辺雑音などの影響を吸収しつつ音声処理を行う形になるが、この技術ではニューラルネットワークの「中間出力」を話者登録および話者認識に利用する。中間出力を使うことで、話者認識の際にも周辺の雑音の影響を抑えることが可能となり、話者認識のための音声処理の時間を大幅に削減。限られた機能上でも高速な動作を実現したという。

キーワード検出で用いた情報の活用について 出典:東芝

 2つ目の特長は、ニューラルネットワークのデータ拡張手法の活用だ。データ拡張手法とは、少ないデータ(発話)で学習する手法の1つ。ニューラルネットワークのノード間の接続の重みをランダムにゼロにすることで、同じ話者がさまざまなしゃべり方で発話したような音声情報を模擬的に生成する。この手法を使うことで、話者の発話数が少なくても話者を学習することができ、話者登録時の必要発話数の削減を実現している。

ニューラルネットワークのデータ拡張手法の活用について 出典:東芝

 実際に、3回の発話で話者登録する条件で比較評価を行ったところ、話者認識で用いられる一般的な手法「i-vector」では話者100人の識別精度が71%だったのに対し、この手法では89%という結果になったといい、東芝は、「家電などエッジデバイスを操作する場面では、登録話者は5〜10人程度と想定されることから、十分に実用性能がある」としている。また、サーバで計算量、処理速度の計測を行ったところ、組み込みシステムでも問題なく動作するという結果が得られたという。

 東芝は、この技術を実際の組み込みシステムに搭載し、家電などのユースケースで実用性の検証を進めていく。また、東芝のコミュニケーションAI「RECAIUS(リカイアス)」での活用についても、東芝デジタルソリューションズと連携して検討を進めていく方針だ。

Copyright © ITmedia, Inc. All Rights Reserved.

RSSフィード

公式SNS

All material on this site Copyright © ITmedia, Inc. All Rights Reserved.
This site contains articles under license from AspenCore LLC.