NVIDIAはどのようにHopper推論性能を30倍向上させたのか:GTC 2025で発表した「Dynamo」(2/2 ページ)
NVIDIAは「GTC 2025」で、オープンソースのリーズニングソフトウェア「Dynamo」を発表した。推論の最適化により「DeepSeek-R1」の処理能力を30倍に向上させられるという。その理由を、NVIDIAに聞いた。
AIモデルを効率的に分割する分散処理
Dynamoの性能向上におけるもう1つの重要な要素となっているのが、分散処理だ。最新のLLMモデルは大きすぎるため、単一のGPUや、1台のGPUサーバ上でも実行できない。Dynamoは、最高性能を実現できるよう、大量のGPU全体でモデルを効率的に分割する設計となっている。
またDynamoは、入力トークンの処理(プレフィル段階)と出力トークン(デコード段階)の生成とを分割する。ワークロードのこれら2つの部分は十分に異なっているため、個別に実行することで、大きな性能メリットをもたらす最適化を実現することが可能だ。
Buck氏は「われわれは、Hopperクラスタ上でLlama-70Bを実行し、Dynamoをオフからオンに変更することで、Hopperデータセンターのスループットを倍増させた。これはつまり、顧客にとっては売上高が2倍になるということだ。DeepSeekのような、レイヤー当たり257エキスパートを保有する『MoE(Mixture of Experts/混合エキスパート)』構造を採用するモデルでは、異なるエキスパートを異なるGPU上に分散させることで、30倍の高速化を実現している。このため、われわれにとっては非常に重要なソフトウェアだといえる」と述べている。
Buck氏が説明しているように、入力トークンは全て同時にモデルに提示されるため、並列処理が可能であり、質問を一度に取り込むことができる。DeepSeekは、生成に関しては自己回帰型で、生成された出力トークンがそれぞれKVキャッシュに追加され、次のトークンが同時に1つずつ生成される。
Buck氏は「これらの2つの段階を分割することで、入力トークン段階を劇的に圧縮できる。並列処理を行い、高密度FP4演算を実行できるようにして、全ての入力トークンを並列処理するためにモデルを最適化することが可能だ。出力に関しては、可能な限りNVL72ラック全体に分散させることで、可能な限りの高速で実行したいため、NVLink帯域幅と、できるだけ多くのGPUを確保することを重要視している」と述べる。
システムではかつて、ワークロードの両方の部分で優れた結果が出るようバランスが取られていたが、それは、特にDeepSeekのような超大規模MoEモデルの場合、もはや最善策ではなくなっている。1年前、NVIDIAは16のエキスパートを持つモデルを「大規模」と見なしていたとBuck氏は説明する。DeepSeekには、レイヤーごとに257のエキスパートがある。
DeepSeek-R1の論文によると、中国のAI企業であるDeepSeekは、プレフィル/入力ステージに32個のGPUを使用し、生成/出力ステージに少なくとも320個のGPUを使用したが、そのためにはNVIDIAのコンピューティングコアをカスタムDMA(Direct Memory Access)エンジンに変換するための独自ソフトウェアを作る必要があった。
Buck氏は、DeepSeek-R1の推論は、Hopper世代のハードウェアでは1秒当たり約50の思考トークンだったが、次世代の「B200」GPUでは約120思考トークンにまで改善したと説明した。同氏によると、B200の目標は1秒当たり350トークンであるが、「GB300」ではDeepSeek-R1は1秒当たり1000思考トークンを実現し、実質的にリアルタイムで動作するようになるという。
推論は「信じられないほど難しい」
新しいハードウェアによってトークンレートを向上させるが、Dynamoなどの新しいソフトウェアからも多くの革新が生まれる。「Dynamoの使命は、パフォーマンスを向上させる分散化を実現し、インフラ全体のGPU群を管理して、それらを順調に稼働させ続けることだ」とBuck氏は語った。「われわれの使命は、AIファクトリーを徹底的に加速させることだ。推論は信じられないほど難しいのである」と付け加えた。
【翻訳:田中留美、編集:EE Times Japan】
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
24年の世界半導体市場は18%増、NVIDIAは売上高3位
米国の市場調査会社Gartnerは2025年2月3日(米国時間)、2024年の世界半導体売上高(速報値)が前年比18.1%増の6260億米ドルになったと発表した。ベンダー別で見ると、Samsung Electronics(以下、Samsung)がIntelから首位を奪還。NVIDIAは前年から順位を2つ上げ3位にランクインした。Intel、先進パッケージング製造では「宝の持ち腐れ」?
Intel Foundryでは、先進パッケージング製造能力が「有り余って」いるという。Intelは、TSMCのパッケージング技術「CoWoS」から、Intelの「Foveros」への容易な移植に成功したとし、Intelのパッケージング技術に切り替えるメリットを強調する。「チップ製造能力がAI競争の勝者を決める」とElon Musk氏
Elon Musk氏は「最先端の半導体生産能力を支配する国が、AIを巡る競争で勝利する」とし、米国が台湾に最先端半導体の製造能力を依存していることに警鐘を鳴らしている。Pat Gelsinger氏がほれ込むAIチップ新興 推論を100倍高速化
Intelの前CEOであるPat Gelsinger氏が、英国のAIチップスタートアップであるFractileに投資したことをLinkedInで明らかにした。Fractileは、インメモリコンピューティングをベースにしたAIアクセラレーターを手掛けている。このアクセラレーターは、推論を高速化、低価格化するとGelsinger氏は述べている。BroadcomはNVIDIAに次ぐ注目銘柄になり得るのか 半導体大手10社の現在地
2024年の半導体大手メーカー10社の実績を振り返ってみたい。