メディア

21言語のニューラル音声合成技術、NICTが開発1秒の音声をわずか0.1秒で合成

情報通信研究機構(NICT)は2024年6月、スマホ上でも高速動作が可能な21言語の高品質ニューラル音声合成技術を開発した。1つのCPUコアで、1秒の音声を0.1秒で合成できる。既存モデルに比べ約8倍の速さだという。

» 2024年07月08日 14時30分 公開
[馬本隆綱EE Times Japan]

ネット未接続のスマートフォンでも、わずか0.5秒で高速生成

 情報通信研究機構(NICT)は2024年6月、スマホ上でも高速動作が可能な21言語の高品質ニューラル音声合成技術を開発したと発表した。1つのCPUコアで、1秒の音声を0.1秒で合成できる。既存モデルに比べ約8倍の速さだという。

ミドルレンジスマートフォンに実装した音声合成モデルの例 ミドルレンジスマートフォンに実装した音声合成モデルの例[クリックで拡大] 出所:NICT

 テキスト音声合成モデルは、入力テキストを中間特徴量に変換する「音響モデル」と、中間特徴量を音声波形に変換する「波形生成モデル」で構成される。ニューラル音声合成の音響モデルは、これまでニューラルネット「Transformer型エンコーダー+Transformer型デコーダー」が主流であった。近年は画像識別の用途などで高速、高性能のニューラルネット「ConvNeXt型エンコーダー+ConvNeXt型デコーダー」が導入され、3倍の高速化を実現している。

 波形生成モデルでは、従来の「HiFi-GAN」から、ニューラルネットとして表現するモデル「MS-HiFi-GAN」へ、さらには高速化モデル「MS-FC-HiFi-GAN」へと進化を遂げ、合成品質を維持しながら、合成速度を当初の4倍としてきた。

 そして今回、これまで開発してきた「音響モデル(Transformer型エンコーダー+ConvNeXt型デコーダー)」と「波形生成モデル(MS-FC-HiFi-GAN)」を用いて、新たなニューラル音声合成モデルを開発した。これにより、1つのCPUコアで1秒の音声を0.1秒という高速で合成することが可能となった。

 また、波形生成モデルのみを逐次合成する方式を実装すれば、ネットワークに未接続のミドルレンジスマートフォンであっても、テキスト入力からわずか0.5秒で高速生成できるという。これにより、多言語同時通訳でも翻訳テキストを即座に合成することが可能となった。

 開発した21言語の音声合成モデルは、NICTが運用しているスマートフォン用の多言語音声翻訳アプリ「VoiceTra(ボイストラ)」のサーバに搭載され、一般公開されている。今後は、商用ライセンスを通してスマートフォンアプリなどへの社会実装に取り組む。

 なお、21言語とは日本語、英語、中国語、韓国語、タイ語、フランス語、インドネシア語、ベトナム語、スペイン語、ミャンマー語、フィリピン語、ブラジルポルトガル語、クメール語、ネパール語、モンゴル語、アラビア語、イタリア語、ウクライナ語、ドイツ語、ヒンディ語、ロシア語である。

開発したニューラル音声合成モデルの模式図 開発したニューラル音声合成モデルの模式図[クリックで拡大] 出所:NICT
波形生成モデルのみを逐次合成することで待ち時間を短縮 波形生成モデルのみを逐次合成することで待ち時間を短縮[クリックで拡大] 出所:NICT

Copyright © ITmedia, Inc. All Rights Reserved.

RSSフィード

公式SNS

All material on this site Copyright © ITmedia, Inc. All Rights Reserved.
This site contains articles under license from AspenCore LLC.