NVIDIA、Turing世代の「Tesla T4」を発表【内容追加】：Pascal世代から12倍の性能向上

NVIDIAは2018年9月13日、同社プライベートカンファレンス「GTC Japan 2018」（2018年9月13～14日、グランドプリンスホテル新高輪国際館パミール）で、HPC（High Performance Computing）向けGPUボードの新製品となる「Tesla T4」を発表した。

[松本貴志，EE Times Japan] PC用表示関連情報

LINE

Hatena

「Turing」世代のTesla、Pascal世代から12倍の性能向上

Tesla T4を持つNVIDIAでCEO（最高経営責任者）を務めるJensen Huang氏（クリックで拡大）

　同チップは、先日発表された「Turing」コアを採用。Pascal世代のTesla P4と比較して、FP16（16ビット浮動小数点）を用いたディープラーニング学習モデルの推論性能で12倍の改善を果たした。消費電力は75W。既に量産体制に入っている。

320個のTensorコアと2560個のCUDAコアを実装

　Tesla T4は、4×4行列の積和演算を行うTensorコアを320個、CUDAコアを2560個搭載し、演算性能はFP16を用いた場合で最高65TFLOPS、INT8（8ビット整数）で130TOPS、INT4で260TOPSと、量子化されたモデルに対してリニアな性能向上を実現した。パッケージはPCI Express（PCIe）で提供される。

Tesla T4とTesla P4の性能比較（クリックで拡大）

　また、4Uサイズのラックマウントサーバに16基のTesla T4を搭載した場合、推論性能で1PFLOPSに達するとする。

1PFLOPSに達する4Uサイズのラックマウントサーバ（クリックで拡大）

　その他、推論アプリケーションに関するサービスとして「TensorRT 5」と「TensorRT inference server」も同時に発表された。Tesla T4と上記サービスを含めて、データセンター向け推論プラットフォーム「NVIDIA TensorRT Hyperscale Platform」を構成する。

　各種ニューラルネットワークの最適化を行うランタイムエンジンであるTensorRT 5は、新機能としてTuringアーキテクチャのTensorコアへの対応と、ニューラルネットワークの最適化機能を強化した。TensorRT inference serverは、NVIDIAのクラウドプラットフォーム「NVIDIA GPU Cloud」より無償で入手できるコンテナ化されたマイクロサービス。このサービスにより、データセンター上で動作するアプリケーションは、GPUで動作するAI（人工知能）モデルをシームレスに統合させることができるとする。

TensorRT 5で高速化するアプリケーション（クリックで拡大）

　同社では、AIを活用した推論により創出される市場が今後5年間で200億米ドル規模になると予測している。