2025年3月に米国で開催されたSynopsysの技術者向けイベント「Synopsys Snug」に、OpenAIのハードウェア責任者であるRichard Ho氏が登壇。AIの進化の方向性を語った。
OpenAIのハードウェア責任者であるRichard Ho氏によると、「DeepSeek-R1」のようなモデルによってトレーニングと推論の計算要件が削減されるという進歩があったにもかかわらず、AIコンピューティングの需要は今後も増え続けると予想されるという。
Ho氏は、技術者向けイベント「Synopsys Snug」(2025年3月19〜20日、米国カリフォルニア州サンタクララ)の基調講演で「蒸留(大規模な事前トレーニング済みモデルの学習内容をより小規模なモデルに転送して使用することで、実行時間やコストを削減する技術)のような技術をベースにすると、より小規模なモデルでも優れた結果が得られることが研究で示されている」と述べた。
同氏は「業界では、より安価に動作するこうした小型モデルが主流になるかどうかについて、多くの議論が交わされている。これは、スケーリング則*)が終わったということなのか、それほど多くのコンピューティングが必要なくなったということなのか、それともインフラへの過剰投資ということなのか。スケーリング則は、追加の機能を提供するために(コンピューティングニーズを)拡大し続けるように思えるが、フロンティアトレーニングからポストトレーニングやテスト時のコンピューティングへと移行しているだけである」と述べている。
*)自然言語処理モデルのパラメーター数(=モデルのサイズ)や、データセットのサイズ、トレーニングに使用される計算(Compute)量が増えるにつれて、損失(Loss、誤差)が「べき乗則」に従って減少する、という法則(「言語モデルのスケーリング則(Scaling Laws for Neural Language Models)とは?」(@IT、2023年5月24日)から引用
Ho氏は、思考の連鎖(CoT:Chain-of-Thought)と推論を、より多くのトークンの生成が必要で、より多くのコンピューティングを使用して、小規模なモデルの性能を劇的に向上させることができる技術として強調した。
ここ数年、コンピューティングのスケーリングは言語モデルの開発に非常に重要になっている。OpenAIが2020年に発表した論文では、モデルのトレーニングに使用するコンピューティングを2倍にすると、次の単語を予測する能力が対数的に向上することが示された(この研究は「GPT-3」と「GPT-4」につながっている)
Ho氏は「コンピューティングの規模が劇的に拡大したことで、コヒーレントなテキスト生成やゼロショット転送(さまざまなタスクに適応する能力)、文脈学習(文脈から新しいタスクをモデル化する能力)、現実世界のさまざまなタスクを有用な方法で実行する能力など、新しいモデルの動作が出現した」と述べている。
「われわれが考える進歩は、非常に速いペースで起こっている。実際に、指数関数的なレベルで起こっている」と同氏は述べている。
AIの進化とその社会的影響を研究するための研究機関であるEpoch AIのデータによると、フロンティアモデルのトレーニングに使用されるコンピューティングは、ムーアの法則や低精度のコンピューティング、システム規模の拡大、実行時間の長時間化の可能性によって、2018年までは年間6.7倍増加し、それ以降も年間4倍以上のペースで増加している。
Copyright © ITmedia, Inc. All Rights Reserved.