検索
ニュース

NVIDIAはどのようにHopper推論性能を30倍向上させたのかGTC 2025で発表した「Dynamo」(1/2 ページ)

NVIDIAは「GTC 2025」で、オープンソースのリーズニングソフトウェア「Dynamo」を発表した。推論の最適化により「DeepSeek-R1」の処理能力を30倍に向上させられるという。その理由を、NVIDIAに聞いた。

Share
Tweet
LINE
Hatena

 NVIDIAは、新しいデータセンター推論オーケストレーションソフトウェア「Dynamo」を用いることで、GPUの推論性能を劇的に向上させた。このDynamoは「Triton Inference Server」の後継であり、データセンター事業者が大規模言語モデル(LLM)トークンの生成による収益を最大化できるよう設計されている。「Hopper」世代のGPUでは、既にこの新しいソフトウェアによってトークン/秒/ユーザー(token/s/user)性能が30倍に向上しているという。一体どのように機能しているのだろうか。

NVIDIAのIan Buck氏 出所:NVIDIA
NVIDIAのIan Buck氏 出所:NVIDIA

 NVIDIAのバイスプレジデント兼ハイパースケール/HPC部門担当ゼネラルマネジャーであるIan Buck氏は「それは、トレードオフの関係にある。ユーザー1人当たりのトークン数と、当社のAIファクトリーからの合計トークン数をトレードオフにできる。GPU上で実行される作業によって、AIファクトリー全体が最適化されている」と述べる。

 このトレードオフのスイートスポットは、AIファクトリーの収益性において非常に重要であり、アプリケーションによって異なる場所に存在する可能性がある。例えば、双方向である必要性がないディープリサーチと、超高速のシングルユーザートークン速度が求められるチャットボットでは、異なる場合があるということだ。

 Buck氏は「どのAIファクトリーも、最高のサービスや最高のユーザーエクスペリエンスを提供したり、GPU効率やトークン当たりのトータルコスト効率、そしてもちろん収益を最大化しようとしている」と述べる。

 既存のAIファクトリーは、かつて1台のGPUサーバでLLMを実行できた初期の展開当時とは大幅に異なり、何十万基ものGPUが複数モデルを実行している可能性がある。Buck氏は「リーズニングのような最先端の推論技術には、数千個規模の“思考”トークンが必要になるだろう。『DeepSeek-R1-671B』は6710億個のパラメータを持ち、出力の生成を開始する前に1万個もの思考トークンを生成する」と述べている。

 「これらのモデルは、AIを全く新しいレベルの知識や有用性、エンタープライズ生産性に到達させるという点で非常に重要であり、われわれにはこの課題に対応することが可能なソフトウェアスタックが必要だ」(Buck氏)

 Buck氏が「AIファクトリーのOS」と表現するDynamoは、データの待ち時間を省くために、大規模GPUフリートを管理できる。

NVIDIA
出所:NVIDIA

 特に重要なのが、実質的にはモデルのワーキングメモリであるKV(Key-Value)キャッシュだ。これは、会話全体のコンテクストを維持するために、ユーザーが以前に質問したことに関する情報を保存する。最新のAIファクトリーは、ユーザーごとにKVキャッシュを保持する必要があり(例えばChatGPTの1カ月当たりのユーザー数は10億超)、ユーザーのリクエストが正しいGPUに送られるよう、そのキャッシュがユーザーごとにどのGPU上に存在するのかを把握し、必要に応じて遅れることなく変更に対応しなければならない。

 Dynamoは、インテリジェントなルーティングメカニズムを搭載しており、KVキャッシュ値が既にシステム内のどこかに存在する場合に再計算せざるを得なくなるという状況を回避する。KVキャッシュの高いヒット率を実現することで、推論の大幅な高速化が可能になる。

Copyright © ITmedia, Inc. All Rights Reserved.

       | 次のページへ
ページトップに戻る