AMDの新GPUは、NVIDIA H100に比肩しうるか?:生成AI市場で競争激化(2/3 ページ)
AMDは2023年6月、NVIDIAのフラグシップGPU「H100」に対抗する製品として、生成AI向けの高性能GPU「MI300X」を発表した。「AIは最大かつ最も戦略的な成長機会」とするAMDだが、新製品によって、市場を先行するNVIDIAに迫ることができるだろうか。
LMMをより少ないGPUで処理可能に
MI300Xは5nm/6nmプロセスで製造されたチップレットを12個備え、計1530億トランジスタを搭載する。192GバイトのHBM3メモリを搭載し、メモリ帯域幅は5.2Tバイト/秒。ちなみに、NVIDIAのH100の80Gバイト/HBM2eバージョンは、合計3.3Tバイト/秒だ。つまりMI300Xは、H100の2.4倍のHBM容量と1.6倍のメモリ帯域幅を実現することになる。
Su氏は、「このように全ての容量を追加したことで、より大規模なモデルをメモリで直接実行できるようになり、大規模モデル向けとしての優位性を確立できた。最大規模のモデルでは、必要なGPUの数を削減して、特に推論向けの性能を高速化し、総費用(TCO:Total Cost of Ownership)を低減することが可能だ」と述べる。
つまり、NVIDIAのCEOであるJensen Huang氏が2018年にスピーチの中で、『買えば買うほど節約できる』と主張していたことは忘れた方がいい。AMDは、『その気になれば、もっと少ない数のGPUで済む』と述べているのだ。また全体的な効果として、クラウドサービスプロバイダーはGPUあたりの実行可能な推論ジョブを増やすことができる他、LLMコストの低減や、エコシステムへのアクセス向上などを実現できる。また、導入までに必要な開発期間を短縮することも可能だ。
AMDの計算では、さまざまなLLMのFP16精度での推論に必要なMI300Xの数は、80Gバイトメモリを搭載した競合GPU(H100を指すと思われる)よりも少ない。「Falcon/40B(パラメータ数)」では、AMDのGPU1つで対応できるところ、競合他社のGPUは2つ必要だった。「PaLM/540B」では、AMD製GPUが7つなのに対し、競合GPUは15個必要だとした[クリックで拡大] 出所:AMD
AMDは、NVIDIAの「HGX-H100」と類似した、最大8つのMI300Xを搭載するシステム(AMDのホストCPU「Genoa」を2個搭載)をOCP互換のフォーマットで提供する「AMD Instinct Platform」を披露した。このシステムは、既存インフラに迅速かつ簡単に搭載できるようにすることを目的としている。2023年第3四半期には、主要顧客向けにサンプル出荷を開始する予定だという。
進歩を遂げたソフトウェア
NVIDIAの大きな強みの一つが、成熟したAI/HPC(高性能コンピューティング)ソフトウェアスタックである「CUDA」だ。このCUDAは、AIチップのスタートアップが、市場リーダーであるNVIDIAからシェアを奪うことに苦労している主な理由の一つとして取り上げられることが多い。
Su氏は、「当社のハードウェアの幅広い普及を実現する上で、ソフトウェアが非常に重要であることは間違いない。われわれにとってソフトウェアは、長旅のようなものだった」と述べている。
「AMDのAIソフトウェアスタック『ROCm』はここ1年間で、とてつもない進展を遂げた」(Su氏)
AMDのプレジデントであるVictor Peng氏は、「ROCmは、NVIDIAのCUDAとは対照的に、かなりの部分がオープン化されている。例えばドライバーや言語、ランタイムの他、AMDのデバッガーやプロファイラなどのツール、ライブラリがオープンになっているのだ。またROCmは、HPC/AI向けに最適化されたカーネルを備え、オープンフレームワークやモデル、ツールをサポートする。AMDはPyTorch Foundationとの連携により、機械学習フレームワークの最新版『PyTorch 2.0』向けにデイゼロサポートを確保し、PyTorch-ROCmスタックが仕様通りに機能するよう試験を行っている」と述べる。
またAMDは、自然言語処理に関連したライブラリの開発などを行う米国のHuggingFaceとの新たな協業を発表している。HuggingFaceは、AMDのInstinctシリーズや、AMDのエッジコンピューティングポートフォリオの各種パーツ向けに、数千個の自社モデルを最適化する予定だという。
HuggingFaceのCEOであるClem Delangue氏は、AIの民主化とLLMについて語り、注目を集めた。
同氏は、「AI開発において、ハードウェアがボトルネックやゲートキーパーにならないようにすることが非常に重要だ。われわれは現在、トレーニング/推論用のAIビルダーに対して選択肢の幅を広げようとしている。MI300Xのメモリ容量や帯域幅の優位性によって、特にデータセンターでLLMを実行できるということに期待している」と述べている。
Copyright © ITmedia, Inc. All Rights Reserved.