21言語のニューラル音声合成技術、NICTが開発:1秒の音声をわずか0.1秒で合成
情報通信研究機構(NICT)は2024年6月、スマホ上でも高速動作が可能な21言語の高品質ニューラル音声合成技術を開発した。1つのCPUコアで、1秒の音声を0.1秒で合成できる。既存モデルに比べ約8倍の速さだという。
ネット未接続のスマートフォンでも、わずか0.5秒で高速生成
情報通信研究機構(NICT)は2024年6月、スマホ上でも高速動作が可能な21言語の高品質ニューラル音声合成技術を開発したと発表した。1つのCPUコアで、1秒の音声を0.1秒で合成できる。既存モデルに比べ約8倍の速さだという。
テキスト音声合成モデルは、入力テキストを中間特徴量に変換する「音響モデル」と、中間特徴量を音声波形に変換する「波形生成モデル」で構成される。ニューラル音声合成の音響モデルは、これまでニューラルネット「Transformer型エンコーダー+Transformer型デコーダー」が主流であった。近年は画像識別の用途などで高速、高性能のニューラルネット「ConvNeXt型エンコーダー+ConvNeXt型デコーダー」が導入され、3倍の高速化を実現している。
波形生成モデルでは、従来の「HiFi-GAN」から、ニューラルネットとして表現するモデル「MS-HiFi-GAN」へ、さらには高速化モデル「MS-FC-HiFi-GAN」へと進化を遂げ、合成品質を維持しながら、合成速度を当初の4倍としてきた。
そして今回、これまで開発してきた「音響モデル(Transformer型エンコーダー+ConvNeXt型デコーダー)」と「波形生成モデル(MS-FC-HiFi-GAN)」を用いて、新たなニューラル音声合成モデルを開発した。これにより、1つのCPUコアで1秒の音声を0.1秒という高速で合成することが可能となった。
また、波形生成モデルのみを逐次合成する方式を実装すれば、ネットワークに未接続のミドルレンジスマートフォンであっても、テキスト入力からわずか0.5秒で高速生成できるという。これにより、多言語同時通訳でも翻訳テキストを即座に合成することが可能となった。
開発した21言語の音声合成モデルは、NICTが運用しているスマートフォン用の多言語音声翻訳アプリ「VoiceTra(ボイストラ)」のサーバに搭載され、一般公開されている。今後は、商用ライセンスを通してスマートフォンアプリなどへの社会実装に取り組む。
なお、21言語とは日本語、英語、中国語、韓国語、タイ語、フランス語、インドネシア語、ベトナム語、スペイン語、ミャンマー語、フィリピン語、ブラジルポルトガル語、クメール語、ネパール語、モンゴル語、アラビア語、イタリア語、ウクライナ語、ドイツ語、ヒンディ語、ロシア語である。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- サブテラヘルツ帯CMOS送受信用IC、東工大らが開発
東京工業大学と情報通信研究機構(NICT)の研究チームは、サブテラヘルツ帯CMOS送受信用ICを開発し、毎秒640Gビットの無線伝送に成功した。遠隔医療や自動運転など新サービスへの応用が期待される。 - ザインら、毎秒20Gビットの高速情報伝送を実現
ザインエレクトロニクスと情報通信研究機構(NICT)および広島大学は、ミックスドシグナルベースバンド復調回路を開発、これを搭載した受信用半導体で、20Gビット/秒QPSK変調された電気信号を受信することに成功した。ミックスドシグナル技術を用いることで、ベースバンド復調回路の電力消費を大幅に削減できるという。 - 障害物があっても切れにくいテラヘルツ無線伝送を実証
岐阜大学とソフトバンク、情報通信研究機構(NICT)、名古屋工業大学らの研究グループは、300GHz帯テラヘルツ(THz)無線伝送において、自己修復特性を有する「ベッセルビーム」を用いることで、障害物がビーム中心を横切った場合でも通信が可能なことを実証した。 - 光ファイバーで毎秒301テラビットの伝送容量を達成
情報通信研究機構(NICT)を中心とする国際共同研究グループは、既存の光ファイバーを用い、毎秒301テラビットの伝送実験に成功した。光ファイバーの新しい波長領域を活用するための「光増幅器」と「光強度調整器」を新たに開発し、既存の光ファイバーでは世界最大となる伝送容量を実現した。 - ニオブを用い伝送損失が小さいミリ波帯導波管を開発
名古屋大学と国立天文台、川島製作所および、情報通信研究機構(NICT)の研究グループは、ニオブ(Nb)を用いてミリ波帯の導波管を作製し、超伝導状態にある導波管の伝送損失が極めて小さくなることを確認した。次世代通信規格「Beyond 5G/6G」などへの応用を見込む。 - 光ファイバー通信、伝送容量は22.9ペタビット/秒
情報通信研究機構(NICT)フォトニックネットワーク研究室を中心とする国際共同研究グループは、1本の光ファイバーを用いた通信で、従来の2倍となる最大22.9ペタビット/秒の伝送が可能なことを実証した。