東京大学は、強誘電体トランジスタ(FeFET)を用いた「リザバーコンピューティング」と呼ばれる機械学習方式を開発し、高い精度で音声認識を行うことに成功した。採用したFeEFTは現行の製造プロセスと親和性が高く、LSIの大規模化も比較的容易とみている。
東京大学は2022年6月、強誘電体トランジスタ(FeFET)を用いたリザバーコンピューティングと呼ばれる機械学習方式を開発し、高い精度で音声認識を行うことに成功したと発表した。採用したFeEFTは現行の製造プロセスと親和性が高く、大規模LSIにも比較的対応が容易とみている。
研究グループはこれまで、酸化ハフニウム系強誘電体材料を用いて製造するFeFETを活用したリザバーコンピューティング方式を提案し、その基本動作について確認してきた。ただ、実用化に向けた計算性能の確認や、システム上の課題などについての十分な検証までは至っていなかったという。
そこで今回、音声認識への適用を想定し、新たなリザバーコンピューティング方式を提案し、認識率を向上させるための工夫なども行って、その有効性を検証した。作製したMOSFETは、膜厚0.7nmの「SiO2」と、ゲート絶縁膜として膜厚が10.5nmの「Hf0.5Zr0.5O2(HZO)」を、Si基板上に積層した。
作製したMOSFETは、時系列データに対応する入力信号を、ゲート電圧として印加することにより、HZO膜の分極状態を制御することができる。そして、分極の記憶特性や分極が時間的に変化する特性を、トランジスタの電流の時間応答特性として読み出し、これらのパターンを機械学習の手法により分類すれば、時系列入力データが含む情報に対して、学習や推論を行うことができるという。
今回の研究では、FeFETの「ドレイン電流」や「ソース電流」「基板電流」に対する時間応答を組み合わせて学習、推論する方式を提案し、その有効性を検証した。FeFETを用いた物理リザバーコンピューティングの基礎的性能を向上させるためである。
認識精度を検証するため、「0」から「9」までの数字について英語で発話し、その認識率を確認した。具体的には、発話の音声データを複数の周波数に分割した時系列データとして扱う。これらをゲート電圧として、それぞれFeFETのゲート電極に入力して並列処理を行い、各FeFETでの推論結果について、多数決を取り推論を行う方式である。
音声発話を特徴的な周波数に分割して並列処理を行うことで、推論を高速に行うことが可能となった。さらに、時系列データに対する電流応答を読み出す時間の刻みを最適化し、ゲート電極への入力をアナログ入力とすることで、認識精度が高まることを示した。さらに、「周波数チャネルの組み合わせ方法の最適化」と、「ドレイン電流、ソース電流、基板電流の時間応答を用いる方法」を組み合わせることで、音声認識率として95.9%を達成することができた。
今回の研究成果は、東京大学大学院工学系研究科電気系工学専攻の名幸瑛心大学院生とKasidit Toprasertpong講師、中根了昌特任准教授、竹中充教授および、高木信一教授らによるものである。
Copyright © ITmedia, Inc. All Rights Reserved.