メディア

2PFLOPS超えのGPGPUを開発した、中国新興企業チップレットを適用(2/2 ページ)

» 2022年09月02日 10時30分 公開
[Sally Ward-FoxtonEE Times]
前のページへ 1|2       

PFLOPSの演算性能を実現した工夫

 チップレット同士をつなげる高速シリアルリンクは、毎秒896GBの双方向帯域幅を実現する。BirenのCTO(最高技術責任者)であるMike Hong氏によると、それにより、2つのコンピュートタイルは1つのSoC(System on Chip)のように機能できるという。

 Birenは、GPUアーキテクチャに加え、「BLink」という毎秒412GBのチップツーチップ(BR100とBR100の間)インターコネクトも開発した。1チップにつき8個のBLinkポートを備えている。BLinkは、サーバノード内の他のBR100と接続するために用いられる。

 コンピュートタイルは、2Dメッシュのようなネットワークオンチップ(NOC)によって接続されたSPC(Streaming Processor Cluster)を16個ずつ備えている。このNOCは、データ並列やモデル並列機能を実現するマルチタスク能力を有している。

 各SPCは16個の実行ユニット(EU)を持ち、4個、8個、16個のEUからなる計算ユニット(CU)に分割することができる。

Birenの2つのコンピュートダイは、毎秒896GBの帯域幅を持つ高速シリアルインタフェースでリンクされており、1つのSoCのように動作できる[クリックで拡大] 出所:Biren Technology

 各EUは、16のストリーミング処理コア(Vコア)と1つのテンソルコア(Tコア)を持つ。Vコアは、データの前処理、 バッチ正規化やReLU(Rectified Linear Unit)などの処理、Tコアの管理など、汎用計算のためのフルセットISAを持つ汎用のSIMTプロセッサである。Tコアは、行列の乗算と加算および畳み込みを高速化する。これらの演算は、典型的なディープラーニングのワークロードの大部分を占める。

Birenの実行ユニットには、それぞれ16個の汎用コアと1個のテンソルコアが使われている[クリックで拡大] 出所:Biren Technology

 また、Birenは独自のデータフォーマット「E8M15」を考案し、TF32+と呼称している。このフォーマットは、AI学習用で、NVIDIAのTF32フォーマットと同じサイズの指数(同じダイナミックレンジ)だが、仮数が5ビット多い(言い換えれば、5ビット精度が高い)のが特徴である。つまり、BF16の乗算器をTF32+に再利用することができ、Tコアの設計を簡素化することができる。

 Xu氏によれば、同社はすでにMLPerfの推論スコアの次のラウンドに結果を提出しており、今後数週間のうちに利用できるようになる予定だという。

【翻訳:滝本麻貴、編集:EE Times Japan】

前のページへ 1|2       

Copyright © ITmedia, Inc. All Rights Reserved.

RSSフィード

公式SNS

All material on this site Copyright © ITmedia, Inc. All Rights Reserved.
This site contains articles under license from AspenCore LLC.