チップレット同士をつなげる高速シリアルリンクは、毎秒896GBの双方向帯域幅を実現する。BirenのCTO(最高技術責任者)であるMike Hong氏によると、それにより、2つのコンピュートタイルは1つのSoC(System on Chip)のように機能できるという。
Birenは、GPUアーキテクチャに加え、「BLink」という毎秒412GBのチップツーチップ(BR100とBR100の間)インターコネクトも開発した。1チップにつき8個のBLinkポートを備えている。BLinkは、サーバノード内の他のBR100と接続するために用いられる。
コンピュートタイルは、2Dメッシュのようなネットワークオンチップ(NOC)によって接続されたSPC(Streaming Processor Cluster)を16個ずつ備えている。このNOCは、データ並列やモデル並列機能を実現するマルチタスク能力を有している。
各SPCは16個の実行ユニット(EU)を持ち、4個、8個、16個のEUからなる計算ユニット(CU)に分割することができる。
各EUは、16のストリーミング処理コア(Vコア)と1つのテンソルコア(Tコア)を持つ。Vコアは、データの前処理、 バッチ正規化やReLU(Rectified Linear Unit)などの処理、Tコアの管理など、汎用計算のためのフルセットISAを持つ汎用のSIMTプロセッサである。Tコアは、行列の乗算と加算および畳み込みを高速化する。これらの演算は、典型的なディープラーニングのワークロードの大部分を占める。
また、Birenは独自のデータフォーマット「E8M15」を考案し、TF32+と呼称している。このフォーマットは、AI学習用で、NVIDIAのTF32フォーマットと同じサイズの指数(同じダイナミックレンジ)だが、仮数が5ビット多い(言い換えれば、5ビット精度が高い)のが特徴である。つまり、BF16の乗算器をTF32+に再利用することができ、Tコアの設計を簡素化することができる。
Xu氏によれば、同社はすでにMLPerfの推論スコアの次のラウンドに結果を提出しており、今後数週間のうちに利用できるようになる予定だという。
【翻訳:滝本麻貴、編集:EE Times Japan】
Copyright © ITmedia, Inc. All Rights Reserved.