音声インタフェースは主流になるのか?:早くも市場の断片化も(1/2 ページ)
音声制御と音声インタフェースは、消費者向けエッジデバイスのほぼ全てのカテゴリーに容赦なく浸透し始めている。音声認識アルゴリズムとAIアクセラレーターハードウェアの両方の進化は、音声制御技術がスマートホーム向けデバイスなど電力とコストに制約されるアプリケーションでも(一部の単純なものさえ含め)利用できるようになっていることを意味する。
浸透し始めた音声インタフェース
音声制御と音声インタフェースは、消費者向けエッジデバイスのほぼ全てのカテゴリーに容赦なく浸透し始めている。音声認識アルゴリズムとAIアクセラレーターハードウェアの両方の進化は、音声制御技術がスマートホーム向けデバイスなど電力とコストに制約されるアプリケーションでも(一部の単純なものさえ含め)利用できるようになっていることを意味する。
スマートホーム向けデバイスの音声制御を支える、ユーザー側の原動力は明白だ。
PicoVoiceのCEOであるAlireza Kenarsari-Anhari氏は米国EE Timesに対し「現時点での主要な原動力として、使い勝手の良さと便利さが挙げられる」と述べた。コーヒーが欲しい時にホームオフィスの机からコーヒーメーカーに向かって大声を出すことや、ぬれた洗濯物が入ったカゴを手に乾燥機に向かって命令することは容易に想像できる。
われわれは、そのような持ち運べないスマートデバイスが自宅のWi-Fiに常に接続されていると想定している。それなのになぜ音声処理はクラウドで行われないのだろうか?
こうした状況でのエッジAIに対するトレンドは、主にプライバシーに動かされている。Kenarsari-Anhari氏は、プライバシーは消費者の懸念であり、一部の企業にとってなくてはならないものであると述べている。もう一つの原動力は信頼性である。Kenarsari-Anhari氏は「自宅のWi-Fiが切れると洗濯機が止まってしまうなら意味がない」と述べた。
特定の状況ではレイテンシも重要である。ゲームなど一部のアプリケーションでは、音声の作業負荷の処理をリアルタイムで保証する必要がある。
コストも音声のエッジ処理の大きな原動力となる。クラウドでそのような音声データを処理するにはコストがかかるからだ。ユーザーがクラウドAPI(Application Programming Interface)を使うたびに料金を支払うというビジネスモデルは、コストポイントが低く毎日の使用頻度が高いホームアプリケーションや家電といったユースケースには役立たない。
PicoVoiceの音声テキスト化用AIインタフェースエンジンは、クラウドに接続されず、1米ドルを切るマイコン上で動作するよう設計されている。同社は、音声制御の実現が難しいようなアプリケーションで、音声制御を実現することを目指している。
民生用ウェアラブル機器やヒアラブル機器が一例だ。こうしたデバイスは、マイコンベースの音声ソリューションによって実現できる電力効率とコスト効率が必要な“分岐点”に位置している。電力とコストを最適化したソリューションも、産業用や医療用、セキュリティといったアプリケーションに応用できるのではないかとKenarsari-Anhari氏は述べている。
PicoVoiceは最近、「Shepherd」というプラットフォームを開発した。Shepherdはマイコン上で音声アプリケーションを構築するためのプラットフォームで、同社のモデル作成ソフトウェア「PicoVoice Console」と連携する。ShepherdはArmの「Cortex-M」コアを搭載した、STMicroelectronicsやNXP Semiconductorsのマイコンをサポートする。その他のデバイスについても順次対応していく予定だ。
Copyright © ITmedia, Inc. All Rights Reserved.