メディア

最大362TFLOPSの「D1」チップなど、Tesla AI Dayハイライト：自動運転車用モデルのトレーニングを進化（2/3 ページ）

» 2021年10月04日 11時30分公開

トレーニングノード

　Teslaは、トレーニングノード間の低レイテンシを実現すべく、2GHz以上のクロック周波数の1サイクルで信号が移動できる、最も長い距離を設定したという。これにより、トレーニングノードをどの程度まで近接させるべきかという点や、CPUとそれをサポートするエレクトロニクスがどれくらい複雑化するかといった点などが定義される。またこれらのパラメータにより、CPUは、4つの近接したトレーニングノードとの間で512Gビット/秒（bps）の通信速度でやりとりすることが可能だ。

　トレーニングノードの最高性能は、使用する演算によって異なるが、通常は浮動小数点性能を用いて比較する。トレーニングタイルの32ビット浮動小数点（FP32）での最高性能は64GFLOPSで、BFP16またはCFP8の最高演算性能は1024GFLOPSだ。

　D1は、NNトレーニング向けに開発された、非常に優れたチップである。7nmプロセスを適用し、645mm²のダイ面積に500億個のトランジスタを搭載している。チップには計11マイル（約17.7km）を超える配線が用いられており、消費電力量は400W台だ。

　D1チップは、高速かつ低消費電力のSerDesを備えたIOリングを搭載し、全体で合計576レーンを備える。各レーンのデータ伝送速度は112Gbpsで、D1の最大オンチップ伝送速度は10Tbps。チップの各側面のオフボード伝送速度は最大4Tbpsである。

　D1チップ上の354個のCPUはそれぞれ、1.25MBのSRAMを搭載しているため、合計442MB超のSRAMを備えていることになる。また、D1チップの最高性能は、354個のトレーニングノードのCPUアレイをベースとしている。

　D1の32ビット浮動小数点演算の最高性能は22.6TFLOPS、16ビット浮動小数点演算の最高性能は362TFLOPSに達する。

トレーニングタイル

　Teslaのトレーニングタイルは、AIトレーニングシステムのスケーリングを実現可能なビルディングブロックである。1枚のウエハー上に25個のD1ダイを統合し、マルチチップモジュール（MCM）としてパッケージングされている。TeslaはこのMCMを、「半導体業界最大級のMCMだ」とうたう。トレーニングタイルは、大規模チップとしてパッケージングされているため、トレーニングタイルの帯域幅を保持する高帯域幅コネクターを介して、他のトレーニングタイルに接続することが可能だ。