りんなのテレフォンハッキングは、同社が提供するクラウドサービス「Microsoft Azure」上で運用される。話者に対するサービス提供は、Phone Callサーバがフロントエンドとして、音声認識、会話エンジン、音声合成(TTS:Text To Speech)を処理するサーバを協調動作させている。
その上で、電話を実現するために一番重要なことはリアルタイム性だとして、可能な限り遅延がないシステム構築を行った。最も負荷が大きい処理は、りんなの応答テキストを生成する会話エンジンと、その応答テキストを音声に合成するTTSであり、各種対策をしたという。
会話エンジンは「CPUでは動作できない」(同社開発担当者)として、複数のGPUを搭載したサーバを活用。TTSの遅延は、複数のバージョンのTTSを使い分けることで解決した。りんなのテレフォンハッキングでは、遅延が最長でも500ミリ秒程度に抑制される前バージョンのTTSを活用し、りんなライブでは発話がより自然な新バージョンのTTSを用いているという。
本サービスの今後の展開について坪井氏は、人工知能のアドリブ力が強い特性を活用して「ラジオ番組などでりんなが自然な会話を実現できるコーナーを設けることや、演劇で役割を演じること」などが考えられるという。榊原氏は、説明会の総括で「マイクロソフトのAIは人間を置き換えるものではない。人間の創造力をより拡大させるためにAIを提供していきたい」と語った。
女子高生AI「りんな」は感情的なつながりを生む
IntelがAI専門の部門を新設、開発を加速
応用例で見る、ルネサスの組み込みAI
ARM、AI開発専門のグループを設立
ルネサス MCU/MPUのAI処理性能を今後3年で1000倍に
我々が求めるAIとは、碁を打ち、猫の写真を探すものではないCopyright © ITmedia, Inc. All Rights Reserved.
記事ランキング