NVIDIAはどのようにHopper推論性能を30倍向上させたのか：GTC 2025で発表した「Dynamo」（2/2 ページ）

NVIDIAは「GTC 2025」で、オープンソースのリーズニングソフトウェア「Dynamo」を発表した。推論の最適化により「DeepSeek-R1」の処理能力を30倍に向上させられるという。その理由を、NVIDIAに聞いた。

[Sally Ward-Foxton，EE Times Japan] PC用表示関連情報

LINE

Hatena

AIモデルを効率的に分割する分散処理

　Dynamoの性能向上におけるもう1つの重要な要素となっているのが、分散処理だ。最新のLLMモデルは大きすぎるため、単一のGPUや、1台のGPUサーバ上でも実行できない。Dynamoは、最高性能を実現できるよう、大量のGPU全体でモデルを効率的に分割する設計となっている。

　またDynamoは、入力トークンの処理（プレフィル段階）と出力トークン（デコード段階）の生成とを分割する。ワークロードのこれら2つの部分は十分に異なっているため、個別に実行することで、大きな性能メリットをもたらす最適化を実現することが可能だ。

　Buck氏は「われわれは、Hopperクラスタ上でLlama-70Bを実行し、Dynamoをオフからオンに変更することで、Hopperデータセンターのスループットを倍増させた。これはつまり、顧客にとっては売上高が2倍になるということだ。DeepSeekのような、レイヤー当たり257エキスパートを保有する『MoE（Mixture of Experts／混合エキスパート）』構造を採用するモデルでは、異なるエキスパートを異なるGPU上に分散させることで、30倍の高速化を実現している。このため、われわれにとっては非常に重要なソフトウェアだといえる」と述べている。

　Buck氏が説明しているように、入力トークンは全て同時にモデルに提示されるため、並列処理が可能であり、質問を一度に取り込むことができる。DeepSeekは、生成に関しては自己回帰型で、生成された出力トークンがそれぞれKVキャッシュに追加され、次のトークンが同時に1つずつ生成される。

　Buck氏は「これらの2つの段階を分割することで、入力トークン段階を劇的に圧縮できる。並列処理を行い、高密度FP4演算を実行できるようにして、全ての入力トークンを並列処理するためにモデルを最適化することが可能だ。出力に関しては、可能な限りNVL72ラック全体に分散させることで、可能な限りの高速で実行したいため、NVLink帯域幅と、できるだけ多くのGPUを確保することを重要視している」と述べる。

　システムではかつて、ワークロードの両方の部分で優れた結果が出るようバランスが取られていたが、それは、特にDeepSeekのような超大規模MoEモデルの場合、もはや最善策ではなくなっている。1年前、NVIDIAは16のエキスパートを持つモデルを「大規模」と見なしていたとBuck氏は説明する。DeepSeekには、レイヤーごとに257のエキスパートがある。

　DeepSeek-R1の論文によると、中国のAI企業であるDeepSeekは、プレフィル／入力ステージに32個のGPUを使用し、生成／出力ステージに少なくとも320個のGPUを使用したが、そのためにはNVIDIAのコンピューティングコアをカスタムDMA（Direct Memory Access）エンジンに変換するための独自ソフトウェアを作る必要があった。

　Buck氏は、DeepSeek-R1の推論は、Hopper世代のハードウェアでは1秒当たり約50の思考トークンだったが、次世代の「B200」GPUでは約120思考トークンにまで改善したと説明した。同氏によると、B200の目標は1秒当たり350トークンであるが、「GB300」ではDeepSeek-R1は1秒当たり1000思考トークンを実現し、実質的にリアルタイムで動作するようになるという。

推論は「信じられないほど難しい」

　新しいハードウェアによってトークンレートを向上させるが、Dynamoなどの新しいソフトウェアからも多くの革新が生まれる。「Dynamoの使命は、パフォーマンスを向上させる分散化を実現し、インフラ全体のGPU群を管理して、それらを順調に稼働させ続けることだ」とBuck氏は語った。「われわれの使命は、AIファクトリーを徹底的に加速させることだ。推論は信じられないほど難しいのである」と付け加えた。

【翻訳：田中留美、編集：EE Times Japan】

原文へのリンク

NVIDIAはどのようにHopper推論性能を30倍向上させたのか：GTC 2025で発表した「Dynamo」（2/2 ページ）

AIモデルを効率的に分割する分散処理

推論は「信じられないほど難しい」

関連記事