検索
特集

NVIDIAが語るVoltaとTuring、最新GPUはこう使おうGTC Japan 2018(2/4 ページ)

NVIDIAのGPUアーキテクチャである「Turing」と「Volta」。これら2つのアーキテクチャでは、RTコアとTensorコアという2つのユニットが性能躍進の立役者となった。GTC Japan 2018の講演から、アーキテクチャをおさらいし、最新GPUを効率的に活用するための手法を紹介する。

Share
Tweet
LINE
Hatena

Voltaから小ぶりになったTuring

 そして、TuringではVoltaで進化した点を踏襲しつつもさらに新機能として、リアルタイムレイトレーシングの実現、INT8もサポートしたTensorコア、プログラマブルシェーダーの拡張を行った。Turingの詳報は既出記事(=“通常とは違う過程で登場”したGPU「Turing」は何が新しいのか)を参照されたい。本稿では、チップの規模とVoltaから変更が加えられた点に注目したい。

 Quadro RTX6000が搭載するGPUチップとなるTU102は、72個のSMで構成されている。チップ全体では、4608個のCUDAコア、576個のTensorコア、72個のRTコアを集積した。SMの演算ユニット構成は、INT32が64個、FP32が64個、Tensorコアが8個、RTコアが1個。その他、GV100と異なる点として、L1キャッシュとシェアードメモリが合計96Kバイト、最大スレッド数が1024といずれも減少している。また、FP64演算ユニットが1SMあたり4個にまで削減されているが、「性能を出すためでなく、64ビットコードを開発するためのもの」(成瀬氏)としている。

左:TU102の構成 右:TU102のSM1個あたりの演算ユニット構成(クリックで拡大) 出典:NVIDIA

 Turingでは、RTコアの実装で1個あたりにおけるSMの規模が大きくなった。これにより、TU102ではGV100と比較してSMの搭載数が10%削減されている。総トランジスタ数はGV100比で88%となる186億個。製造プロセスはVoltaと同じく12FFNで、公称ダイサイズはGV100比93%となる754mm2と少々小ぶりとなった。しかし、Pascal世代のGP102では総トランジスタ数が118億個、ダイサイズが471mm2であることから、TU102はグラフィック用途のGPUとして最大規模であることに間違いない。


GP102(Pascal)とTU102(Turing)の比較(クリックで拡大) 出典:NVIDIA
Volta比較ではダイサイズを縮小したTuringだが、Pascal比較では1.6倍ものダイサイズとなっている

 TU102を搭載するQuadro RTX6000のピーク性能は、FP32で15.6TFLOPS、ディープラーニングの推論はFP16で125TFLOPS、INT8で250TOPS(いずれもTensorコア使用時)となっている。


Quadro P6000とRTX6000のピーク性能比較(クリックで拡大) 出典:NVIDIA

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る