メディア

Massive Computeデータセンターへの期待：光伝送技術を知る（21）　光伝送技術の新しい潮流と動向（2）（2/3 ページ）

» 2023年06月29日 11時30分公開

[高井厚志，EE Times Japan]

Massive Computeデータセンター

　この大規模AIモデルの学習や推論、さらに検証を可能にするデータセンターはどのような姿をしているのだろうか。その学習（Training）には膨大なデータ（Big Data）と計算力（Compute）が必要である。

　図4は、さまざまなAIモデルの学習（Deep Learning）に要した計算量を、発表年でプロットしたものである^［1］。縦軸の計算量はFLOPS・秒（FLOPs）を示す。米国のスーパーコンピュータ「Frontier」が約1.1EFLOPs（Exa FLOPs／エクサ＝10¹⁸）であり、それが1日24時間、仕様通りの能力を発揮した時の計算量は約10²³ FLOPsである。

図4　AIモデルの学習計算量の動向［クリックで拡大］

　図4には、2010年ごろから始まった「Deep Learning Era」に加え、2015年ごろから「Large Scale Era」に突入したことが示されている。

　Large Scale Eraのきっかけは、囲碁AIの「AlphaGO」だ。2020年あたりには、今話題のGPT-3もプロットされている。学習に必要な計算量は増加しており、その増加速度は6～11カ月に2倍となっている。そこから、「ムーアの法則」によるGPUの性能向上（半導体のトランジスタ集積度が18カ月で2倍になる）を差し引くと、その差は年1.4～2.5倍の割合で開いていく。この差を埋めるには1年に約2倍のスピードでチップ数を増加させる必要があるのだ。

［1］Parameter, Compute and Data Trends in Machine Learning by Jaime Sevilla, Pablo Villalobos, Juan Felipe Ceron, Matthew Burtell, Lennart Heim, Amogh B. Nanjajjar, Anson Ho, Tamay Besiroglu and Marius Hobbhahn; 2021

　図5は、GoogleのTPU、NVIDIAのAIデータセンタープラットフォーム「SuperPod」、MetaのAIクラウドデータセンター（2022年2月発表）で使われているxPU（GPU／TPU）のチップ数と、スーパーコンピュータのCPU数^＊）を、年度ごとにプロットしたものである（チップ数などをNode数と呼んでいる）。スパコンのNode数が、10K～100Kで推移していることが分かる。

＊）「Photonics West 2022」（2022年1月／サンフランシスコ）の富士通の発表を基にした。
［2］Yuichiro Ajima, Proc. SPIE 12007, Optical Interconnects XXII, 1200704, 2022

　一方、AI／MLのxPU数は年に2倍のペースで増加し、2025年ごろに数10KのNodeになると予測される。図4に示されていた年約2倍のチップ数の増加トレンドを読み取ることができる。2025年後も増加し、100Kを超えるAIシステムの実現も考えられる。

図5　AI／MLのNode数のトレンド［クリックで拡大］

　このような数10Kや100K以上のNodeを有するシステムはどのようにデータセンターに設置されるのだろうか。そこに光技術は貢献するのだろうか。

　Googleは、Server Podと並んで複数のSuper-Nodeで構成されるFabricを設置し、Spine Switchで接続する方式を示した^［3］（図6）。このSuper-Node Fabricが、AI／MLシステムであると考えている。IBMが、GPU30台を光ファイバーで光スイッチに接続したシステム実験を行っているが、それをSuper-Nodeと呼んでいる^［4］ことから推測される。

図6　GoogleのSuper-Node Fabric［クリックで拡大］出所：Google

　また、最新のGoogleの学会発表ではSpine SwitchがOptical Circuit Switch（OCS）に置き換えられたという^［5］。それはTotal Cost of Ownership（TCO）の低減と、従来のホモジニアスなサーバシステムから、ヘテロジニアスな構成に対応するためということである。このヘテロジニアスな構成が図6と推測できる。

　ハイパースケールデータセンターは、ビッグデータの収集／保存を得意としており、そのストレージの近く、つまりデータセンター内にAI／MLシステムを設置することは理にかなっている。このSuper-Node Fabricに光技術は使用されるのであろうか。

［3］Hong Liu et al., S2A, OFC 2022.
［4］Marc Taubenblatt, et al., Journal of Optical Communications and Networking, 2021.
［5］L. Poutievski et al., ACM SIGCOMM 2022.

Back-End Network

前のページへ 1|2|3 次のページへ