Googleが第2世代TPUを発表、処理性能は180TFLOPS：機械学習向けプロセッサの新版（1/2 ページ）

Googleは、機械学習（マシンラーニング）向けのプロセッサ「TPU（Tensor Processing Unit）」の第2世代を発表した。トレーニングと推論の両方に最適化されたもので、処理性能は180TFLOPSになるという。

LINE

Hatena

トレーニングと推論向け

　Googleは2017年5月17日（米国時間）、第2世代の「Tensor Processing Unit（TPU）」と、法人顧客や研究者に向けたクラウドサービスで利用できるマシンラーニング（機械学習）用ASIC「Cloud TPU」を発表した。Cloud TPUは1枚のボードに4つのプロセッサを搭載していて、同ボードの処理性能は180TFLOPSになる。トレーニングと推論の両方のタスクに使用することが可能だという。

　Googleは今回の取り組みにより、機械学習への関心の高まりを利用して、自社のクラウドサービスの利用を促進したい考えだ。さらに、新しいチップでサポート可能な唯一のソフトウェアインタフェースである、TensorFlowフレームワークのユーザー数を増加させたいという狙いもあるようだ。

　Googleは、「浮動小数点演算が可能なCloud TPUは、トレーニングと推論の両方に最適化されており、実装を簡素化できる」と述べる。第1世代のTPUは整数演算を使用し、推論のみをターゲットとしていた。

　上述した通り、Cloud TPUは4つのチップを1枚の専用アクセラレーターボード上に搭載している。このボードを64枚接続した「TPUポッド」は、11.5PFLOPSの処理性能を実現するという。

「Cloud TPU」（クリックで拡大）

　Googleでシニアフェローを務めるJeff Dean氏は、記者会見で、「第2世代のTPUの開発メンバーは、第1世代の時とほぼ同じである。第1世代TPUは規模が小さかったため、第2世代の方が完成度の高いシステムだといえる。推論に関しては、1つのチップ上で実行可能だが、トレーニングの場合はもっと全体的な考察が必要だ」と述べている。

トレーニングではGPUを上回る

　Googleは、「トレーニングに関しては、新型ASICがGPUを優に上回る」と主張する。同社の最新の大規模な言語翻訳モデルでは、既存のトップエンドGPUを32個使用した場合、トレーニングに丸1日を要するが、ポッドの8分の1に相当する8個のTPUを使用すると、同じジョブを6時間で実行することが可能だという。

　Googleは、第1世代のTPUの導入を2015年に開始して以来、検索や翻訳、「Googleフォト」など同社のさまざまなクラウドサービスにおいて使用してきた。

　GoogleがTPUを最初に発表したのは、同社の開発者向けイベント「Google I/O 2016」（米国カリフォルニア州マウンテンビュー、2016年5月18～20日）においてである。同社が2017年4月に発表した論文によれば、第2世代TPUは28nmプロセスを適用したチップで、消費電力は40W、動作周波数は700MHzである。主論理ユニットには6万5536個の8ビット乗算累算ユニットと24Mバイトのキャッシュを搭載しているという。

　第1世代のTPUは、2015年にGoogleのマシンラーニングジョブに使われたベンチマークで、IntelのサーバCPU「Haswell」やNVIDIAのGPU「K80」に比べて処理速度が15～30倍、ワット当たり性能が30～80倍とされている。

内部構造は明らかにせず

原文へのリンク

　　　　　　 | 次のページへ