NVIDIAが語るVoltaとTuring、最新GPUはこう使おう：GTC Japan 2018（2/4 ページ）

NVIDIAのGPUアーキテクチャである「Turing」と「Volta」。これら2つのアーキテクチャでは、RTコアとTensorコアという2つのユニットが性能躍進の立役者となった。GTC Japan 2018の講演から、アーキテクチャをおさらいし、最新GPUを効率的に活用するための手法を紹介する。

[松本貴志，EE Times Japan] PC用表示関連情報

LINE

Hatena

前のページへ | 次のページへ

Voltaから小ぶりになったTuring

　そして、TuringではVoltaで進化した点を踏襲しつつもさらに新機能として、リアルタイムレイトレーシングの実現、INT8もサポートしたTensorコア、プログラマブルシェーダーの拡張を行った。Turingの詳報は既出記事（＝“通常とは違う過程で登場”したGPU「Turing」は何が新しいのか）を参照されたい。本稿では、チップの規模とVoltaから変更が加えられた点に注目したい。

　Quadro RTX6000が搭載するGPUチップとなるTU102は、72個のSMで構成されている。チップ全体では、4608個のCUDAコア、576個のTensorコア、72個のRTコアを集積した。SMの演算ユニット構成は、INT32が64個、FP32が64個、Tensorコアが8個、RTコアが1個。その他、GV100と異なる点として、L1キャッシュとシェアードメモリが合計96Kバイト、最大スレッド数が1024といずれも減少している。また、FP64演算ユニットが1SMあたり4個にまで削減されているが、「性能を出すためでなく、64ビットコードを開発するためのもの」（成瀬氏）としている。

左：TU102の構成　右：TU102のSM1個あたりの演算ユニット構成（クリックで拡大）出典：NVIDIA

　Turingでは、RTコアの実装で1個あたりにおけるSMの規模が大きくなった。これにより、TU102ではGV100と比較してSMの搭載数が10％削減されている。総トランジスタ数はGV100比で88％となる186億個。製造プロセスはVoltaと同じく12FFNで、公称ダイサイズはGV100比93％となる754mm²と少々小ぶりとなった。しかし、Pascal世代のGP102では総トランジスタ数が118億個、ダイサイズが471mm²であることから、TU102はグラフィック用途のGPUとして最大規模であることに間違いない。

GP102（Pascal）とTU102（Turing）の比較（クリックで拡大）出典：NVIDIA
Volta比較ではダイサイズを縮小したTuringだが、Pascal比較では1.6倍ものダイサイズとなっている

　TU102を搭載するQuadro RTX6000のピーク性能は、FP32で15.6TFLOPS、ディープラーニングの推論はFP16で125TFLOPS、INT8で250TOPS（いずれもTensorコア使用時）となっている。

Quadro P6000とRTX6000のピーク性能比較（クリックで拡大）出典：NVIDIA

こうして使おうTensorコア

前のページへ | 次のページへ