NVIDIAが語るVoltaとTuring、最新GPUはこう使おう:GTC Japan 2018(2/4 ページ)
NVIDIAのGPUアーキテクチャである「Turing」と「Volta」。これら2つのアーキテクチャでは、RTコアとTensorコアという2つのユニットが性能躍進の立役者となった。GTC Japan 2018の講演から、アーキテクチャをおさらいし、最新GPUを効率的に活用するための手法を紹介する。
Voltaから小ぶりになったTuring
そして、TuringではVoltaで進化した点を踏襲しつつもさらに新機能として、リアルタイムレイトレーシングの実現、INT8もサポートしたTensorコア、プログラマブルシェーダーの拡張を行った。Turingの詳報は既出記事(=“通常とは違う過程で登場”したGPU「Turing」は何が新しいのか)を参照されたい。本稿では、チップの規模とVoltaから変更が加えられた点に注目したい。
Quadro RTX6000が搭載するGPUチップとなるTU102は、72個のSMで構成されている。チップ全体では、4608個のCUDAコア、576個のTensorコア、72個のRTコアを集積した。SMの演算ユニット構成は、INT32が64個、FP32が64個、Tensorコアが8個、RTコアが1個。その他、GV100と異なる点として、L1キャッシュとシェアードメモリが合計96Kバイト、最大スレッド数が1024といずれも減少している。また、FP64演算ユニットが1SMあたり4個にまで削減されているが、「性能を出すためでなく、64ビットコードを開発するためのもの」(成瀬氏)としている。
Turingでは、RTコアの実装で1個あたりにおけるSMの規模が大きくなった。これにより、TU102ではGV100と比較してSMの搭載数が10%削減されている。総トランジスタ数はGV100比で88%となる186億個。製造プロセスはVoltaと同じく12FFNで、公称ダイサイズはGV100比93%となる754mm2と少々小ぶりとなった。しかし、Pascal世代のGP102では総トランジスタ数が118億個、ダイサイズが471mm2であることから、TU102はグラフィック用途のGPUとして最大規模であることに間違いない。
GP102(Pascal)とTU102(Turing)の比較(クリックで拡大) 出典:NVIDIA
Volta比較ではダイサイズを縮小したTuringだが、Pascal比較では1.6倍ものダイサイズとなっている
TU102を搭載するQuadro RTX6000のピーク性能は、FP32で15.6TFLOPS、ディープラーニングの推論はFP16で125TFLOPS、INT8で250TOPS(いずれもTensorコア使用時)となっている。
Copyright © ITmedia, Inc. All Rights Reserved.