この大規模AIモデルの学習や推論、さらに検証を可能にするデータセンターはどのような姿をしているのだろうか。その学習(Training)には膨大なデータ(Big Data)と計算力(Compute)が必要である。
図4は、さまざまなAIモデルの学習(Deep Learning)に要した計算量を、発表年でプロットしたものである[1]。縦軸の計算量はFLOPS・秒(FLOPs)を示す。米国のスーパーコンピュータ「Frontier」が約1.1EFLOPs(Exa FLOPs/エクサ=1018)であり、それが1日24時間、仕様通りの能力を発揮した時の計算量は約1023 FLOPsである。
図4には、2010年ごろから始まった「Deep Learning Era」に加え、2015年ごろから「Large Scale Era」に突入したことが示されている。
Large Scale Eraのきっかけは、囲碁AIの「AlphaGO」だ。2020年あたりには、今話題のGPT-3もプロットされている。学習に必要な計算量は増加しており、その増加速度は6〜11カ月に2倍となっている。そこから、「ムーアの法則」によるGPUの性能向上(半導体のトランジスタ集積度が18カ月で2倍になる)を差し引くと、その差は年1.4〜2.5倍の割合で開いていく。この差を埋めるには1年に約2倍のスピードでチップ数を増加させる必要があるのだ。
[1]Parameter, Compute and Data Trends in Machine Learning by Jaime Sevilla, Pablo Villalobos, Juan Felipe Ceron, Matthew Burtell, Lennart Heim, Amogh B. Nanjajjar, Anson Ho, Tamay Besiroglu and Marius Hobbhahn; 2021
図5は、GoogleのTPU、NVIDIAのAIデータセンタープラットフォーム「SuperPod」、MetaのAIクラウドデータセンター(2022年2月発表)で使われているxPU(GPU/TPU)のチップ数と、スーパーコンピュータのCPU数*)を、年度ごとにプロットしたものである(チップ数などをNode数と呼んでいる)。スパコンのNode数が、10K〜100Kで推移していることが分かる。
*)「Photonics West 2022」(2022年1月/サンフランシスコ)の富士通の発表を基にした。
[2]Yuichiro Ajima, Proc. SPIE 12007, Optical Interconnects XXII, 1200704, 2022
一方、AI/MLのxPU数は年に2倍のペースで増加し、2025年ごろに数10KのNodeになると予測される。図4に示されていた年約2倍のチップ数の増加トレンドを読み取ることができる。2025年後も増加し、100Kを超えるAIシステムの実現も考えられる。
このような数10Kや100K以上のNodeを有するシステムはどのようにデータセンターに設置されるのだろうか。そこに光技術は貢献するのだろうか。
Googleは、Server Podと並んで複数のSuper-Nodeで構成されるFabricを設置し、Spine Switchで接続する方式を示した[3](図6)。このSuper-Node Fabricが、AI/MLシステムであると考えている。IBMが、GPU30台を光ファイバーで光スイッチに接続したシステム実験を行っているが、それをSuper-Nodeと呼んでいる[4]ことから推測される。
また、最新のGoogleの学会発表ではSpine SwitchがOptical Circuit Switch(OCS)に置き換えられたという[5]。それはTotal Cost of Ownership(TCO)の低減と、従来のホモジニアスなサーバシステムから、ヘテロジニアスな構成に対応するためということである。このヘテロジニアスな構成が図6と推測できる。
ハイパースケールデータセンターは、ビッグデータの収集/保存を得意としており、そのストレージの近く、つまりデータセンター内にAI/MLシステムを設置することは理にかなっている。このSuper-Node Fabricに光技術は使用されるのであろうか。
[3]Hong Liu et al., S2A, OFC 2022.
[4]Marc Taubenblatt, et al., Journal of Optical Communications and Networking, 2021.
[5]L. Poutievski et al., ACM SIGCOMM 2022.
Copyright © ITmedia, Inc. All Rights Reserved.