メディア

マイクロソフトが目指す、人間と感情をつなげるAIの姿「りんな」と電話のように話せる(3/3 ページ)

» 2018年02月15日 13時30分 公開
[松本貴志EE Times Japan]
前のページへ 1|2|3       

リアルタイム性を重視した音声合成、GPUを活用する会話エンジン

 りんなのテレフォンハッキングは、同社が提供するクラウドサービス「Microsoft Azure」上で運用される。話者に対するサービス提供は、Phone Callサーバがフロントエンドとして、音声認識、会話エンジン、音声合成(TTS:Text To Speech)を処理するサーバを協調動作させている。

りんなのテレフォンハッキングを運用するサーバ群(クリックで拡大) 出典:日本マイクロソフト

 その上で、電話を実現するために一番重要なことはリアルタイム性だとして、可能な限り遅延がないシステム構築を行った。最も負荷が大きい処理は、りんなの応答テキストを生成する会話エンジンと、その応答テキストを音声に合成するTTSであり、各種対策をしたという。

 会話エンジンは「CPUでは動作できない」(同社開発担当者)として、複数のGPUを搭載したサーバを活用。TTSの遅延は、複数のバージョンのTTSを使い分けることで解決した。りんなのテレフォンハッキングでは、遅延が最長でも500ミリ秒程度に抑制される前バージョンのTTSを活用し、りんなライブでは発話がより自然な新バージョンのTTSを用いているという。

 本サービスの今後の展開について坪井氏は、人工知能のアドリブ力が強い特性を活用して「ラジオ番組などでりんなが自然な会話を実現できるコーナーを設けることや、演劇で役割を演じること」などが考えられるという。榊原氏は、説明会の総括で「マイクロソフトのAIは人間を置き換えるものではない。人間の創造力をより拡大させるためにAIを提供していきたい」と語った。

前のページへ 1|2|3       

Copyright © ITmedia, Inc. All Rights Reserved.

RSSフィード

公式SNS

All material on this site Copyright © ITmedia, Inc. All Rights Reserved.
This site contains articles under license from AspenCore LLC.