「Dojo」ソフトウェアは、大規模および小規模NNのトレーニングをサポートする。Teslaが提供するコンパイラは、トレーニングノードやD1チップ、トレーニングタイル、ExaPODシステムなどの構造や性能を活用することが可能なソフトウェアコードを作成するという。
こうした性能の実現により、大規模NNを分割してマップすることで、さまざまな並列処理や、モデル、グラフ、データ並列処理を抽出し、大規模NNのトレーニングを高速化することが可能になる。コンパイラは、複数の技術を利用して並列処理を抽出する。ネットワークを変形させることにより、データモデルグラフ並列処理技術を適用して細粒度並列処理を実現できる他、最適化してメモリフットプリントを削減することも可能だ。
Dojoのインタフェースプロセッサは、ITやデータセンターのホストコンピュータとの通信に使用する。PCIe 4.0でホストコンピュータに接続し、D1ベースのシステムには、前述の高帯域幅で接続する。またインタフェースプロセッサは、D1システム向けの高帯域幅DRAM共有メモリを提供する。
D1ベースのシステムは、「Dojo Processing Unit(DPU)」と呼ばれるユニットに分類/分割することが可能だ。DPUは、1個以上のD1チップと、1個のインタフェースプロセッサ、1個以上のコンピュータホストで構成される。DPUの仮想システムは、その上で動作するNNの必要に応じて、スケールアップまたはスケールダウンすることができる。
TeslaのNNトレーニングチップ、システム、ソフトウェアは非常に素晴らしいものだといえる。チップからシステムへの驚異的な帯域幅と低レイテンシの保持など、多くのイノベーションがある。電源や冷却のためのトレーニングタイルのパッケージングも革新的だ。
NNのトレーニングシステムはデータセンター用で、テスラの自動運転ソフトウェアの改良に使われることは間違いなく、他社でも使用される可能性がある。
重要なのは、NNシステムが自動運転用の推論アプリケーションにどのように使われるか、ということだ。トレーニングタイルの消費電力は、現在のバージョンではクルマ用としては高すぎるようだ。発表用プレゼン資料の写真には、トレーニングタイルに「15KW Heat Rejection」というラベルが貼られていた。D1チップ1個であれば、スライドに記載されているTDPが400Wなので、その範囲内だといえるだろう。
Teslaは、このNNトレーニングの技術革新によって、カメラベースのセンサーだけでオートパイロットをレベル3、レベル4に対応させることに期待(あるいは依存)しているようだ。これは良い賭けだろうか? 時が経てば明らかになることだが、これまでMusk氏の賭けのほとんどは、多少の遅れはあるものの、良い結果を出している。
【翻訳:田中留美、青山麻由子、編集:EE Times Japan】
Copyright © ITmedia, Inc. All Rights Reserved.