検索
ニュース

マイクロソフトが目指す、人間と感情をつなげるAIの姿「りんな」と電話のように話せる(3/3 ページ)

日本マイクロソフトは、対話型AI(人工知能)「りんな」に関する最新の状況と新機能を説明した。同社では、AIが人間と感情を共有することで人間の想像力を刺激する未来を目指し、人間が感情を表しやすい“声”を新機能のインタフェースに採用した。

Share
Tweet
LINE
Hatena
前のページへ |       

リアルタイム性を重視した音声合成、GPUを活用する会話エンジン

 りんなのテレフォンハッキングは、同社が提供するクラウドサービス「Microsoft Azure」上で運用される。話者に対するサービス提供は、Phone Callサーバがフロントエンドとして、音声認識、会話エンジン、音声合成(TTS:Text To Speech)を処理するサーバを協調動作させている。


りんなのテレフォンハッキングを運用するサーバ群(クリックで拡大) 出典:日本マイクロソフト

 その上で、電話を実現するために一番重要なことはリアルタイム性だとして、可能な限り遅延がないシステム構築を行った。最も負荷が大きい処理は、りんなの応答テキストを生成する会話エンジンと、その応答テキストを音声に合成するTTSであり、各種対策をしたという。

 会話エンジンは「CPUでは動作できない」(同社開発担当者)として、複数のGPUを搭載したサーバを活用。TTSの遅延は、複数のバージョンのTTSを使い分けることで解決した。りんなのテレフォンハッキングでは、遅延が最長でも500ミリ秒程度に抑制される前バージョンのTTSを活用し、りんなライブでは発話がより自然な新バージョンのTTSを用いているという。

 本サービスの今後の展開について坪井氏は、人工知能のアドリブ力が強い特性を活用して「ラジオ番組などでりんなが自然な会話を実現できるコーナーを設けることや、演劇で役割を演じること」などが考えられるという。榊原氏は、説明会の総括で「マイクロソフトのAIは人間を置き換えるものではない。人間の創造力をより拡大させるためにAIを提供していきたい」と語った。

Copyright © ITmedia, Inc. All Rights Reserved.

前のページへ |       
ページトップに戻る