Teslaは、トレーニングノード間の低レイテンシを実現すべく、2GHz以上のクロック周波数の1サイクルで信号が移動できる、最も長い距離を設定したという。これにより、トレーニングノードをどの程度まで近接させるべきかという点や、CPUとそれをサポートするエレクトロニクスがどれくらい複雑化するかといった点などが定義される。またこれらのパラメータにより、CPUは、4つの近接したトレーニングノードとの間で512Gビット/秒(bps)の通信速度でやりとりすることが可能だ。
トレーニングノードの最高性能は、使用する演算によって異なるが、通常は浮動小数点性能を用いて比較する。トレーニングタイルの32ビット浮動小数点(FP32)での最高性能は64GFLOPSで、BFP16またはCFP8の最高演算性能は1024GFLOPSだ。
D1は、NNトレーニング向けに開発された、非常に優れたチップである。7nmプロセスを適用し、645mm2のダイ面積に500億個のトランジスタを搭載している。チップには計11マイル(約17.7km)を超える配線が用いられており、消費電力量は400W台だ。
D1チップは、高速かつ低消費電力のSerDesを備えたIOリングを搭載し、全体で合計576レーンを備える。各レーンのデータ伝送速度は112Gbpsで、D1の最大オンチップ伝送速度は10Tbps。チップの各側面のオフボード伝送速度は最大4Tbpsである。
D1チップ上の354個のCPUはそれぞれ、1.25MBのSRAMを搭載しているため、合計442MB超のSRAMを備えていることになる。また、D1チップの最高性能は、354個のトレーニングノードのCPUアレイをベースとしている。
D1の32ビット浮動小数点演算の最高性能は22.6TFLOPS、16ビット浮動小数点演算の最高性能は362TFLOPSに達する。
Teslaのトレーニングタイルは、AIトレーニングシステムのスケーリングを実現可能なビルディングブロックである。1枚のウエハー上に25個のD1ダイを統合し、マルチチップモジュール(MCM)としてパッケージングされている。TeslaはこのMCMを、「半導体業界最大級のMCMだ」とうたう。トレーニングタイルは、大規模チップとしてパッケージングされているため、トレーニングタイルの帯域幅を保持する高帯域幅コネクターを介して、他のトレーニングタイルに接続することが可能だ。
トレーニングタイルのパッケージングは、電力制御や電流分布、「Compute Plane」(25個のD1チップで構成)、冷却システムなどの複数レイヤーで構成されている。トレーニングタイルの用途は、自動運転車ではなく、ITセンター向けとされている。
またトレーニングタイルは、D1チップを25個搭載することにより、16ビット浮動小捨点演算で最大9PFLOPS、32ビット浮動小数点演算では最大565TFLOPSを実現する。
Teslaによると、1つのキャビネットに2×3×2構成のトレーニングタイルを12個パッケージングすることができ、これを「Training Matrix」と呼ぶという。
同社が説明した最大のシステムが「ExaPOD」だ。ExaPODは120個のトレーニングタイルで構成され、最大3000個のD1チップと106万2000個のトレーニングノードを搭載、キャビネットを10個接続する。確実にITセンターでの使用を想定している。
ExaPODの最高性能は、16ビット浮動小数点演算で1.09EFLOPS、32ビット浮動小数点演算で67.8PFLOPSだ。
Copyright © ITmedia, Inc. All Rights Reserved.