検索
連載

Massive Computeデータセンターへの期待光伝送技術を知る(21) 光伝送技術の新しい潮流と動向(2)(2/3 ページ)

光技術や光モジュール開発の動向をお伝えするシリーズ。今回は、データセンターの新しい動向を解説したい。

Share
Tweet
LINE
Hatena

Massive Computeデータセンター

 この大規模AIモデルの学習や推論、さらに検証を可能にするデータセンターはどのような姿をしているのだろうか。その学習(Training)には膨大なデータ(Big Data)と計算力(Compute)が必要である。

 図4は、さまざまなAIモデルの学習(Deep Learning)に要した計算量を、発表年でプロットしたものである[1]。縦軸の計算量はFLOPS・秒(FLOPs)を示す。米国のスーパーコンピュータ「Frontier」が約1.1EFLOPs(Exa FLOPs/エクサ=1018)であり、それが1日24時間、仕様通りの能力を発揮した時の計算量は約1023 FLOPsである。


図4 AIモデルの学習計算量の動向[クリックで拡大]

 図4には、2010年ごろから始まった「Deep Learning Era」に加え、2015年ごろから「Large Scale Era」に突入したことが示されている。

 Large Scale Eraのきっかけは、囲碁AIの「AlphaGO」だ。2020年あたりには、今話題のGPT-3もプロットされている。学習に必要な計算量は増加しており、その増加速度は6〜11カ月に2倍となっている。そこから、「ムーアの法則」によるGPUの性能向上(半導体のトランジスタ集積度が18カ月で2倍になる)を差し引くと、その差は年1.4〜2.5倍の割合で開いていく。この差を埋めるには1年に約2倍のスピードでチップ数を増加させる必要があるのだ。

[1]Parameter, Compute and Data Trends in Machine Learning by Jaime Sevilla, Pablo Villalobos, Juan Felipe Ceron, Matthew Burtell, Lennart Heim, Amogh B. Nanjajjar, Anson Ho, Tamay Besiroglu and Marius Hobbhahn; 2021

 図5は、GoogleのTPU、NVIDIAのAIデータセンタープラットフォーム「SuperPod」、MetaのAIクラウドデータセンター(2022年2月発表)で使われているxPU(GPU/TPU)のチップ数と、スーパーコンピュータのCPU数*)を、年度ごとにプロットしたものである(チップ数などをNode数と呼んでいる)。スパコンのNode数が、10K〜100Kで推移していることが分かる。

*)「Photonics West 2022」(2022年1月/サンフランシスコ)の富士通の発表を基にした。
[2]Yuichiro Ajima, Proc. SPIE 12007, Optical Interconnects XXII, 1200704, 2022

 一方、AI/MLのxPU数は年に2倍のペースで増加し、2025年ごろに数10KのNodeになると予測される。図4に示されていた年約2倍のチップ数の増加トレンドを読み取ることができる。2025年後も増加し、100Kを超えるAIシステムの実現も考えられる。


図5 AI/MLのNode数のトレンド[クリックで拡大]

 このような数10Kや100K以上のNodeを有するシステムはどのようにデータセンターに設置されるのだろうか。そこに光技術は貢献するのだろうか。

 Googleは、Server Podと並んで複数のSuper-Nodeで構成されるFabricを設置し、Spine Switchで接続する方式を示した[3]図6)。このSuper-Node Fabricが、AI/MLシステムであると考えている。IBMが、GPU30台を光ファイバーで光スイッチに接続したシステム実験を行っているが、それをSuper-Nodeと呼んでいる[4]ことから推測される。


図6 GoogleのSuper-Node Fabric[クリックで拡大] 出所:Google

 また、最新のGoogleの学会発表ではSpine SwitchがOptical Circuit Switch(OCS)に置き換えられたという[5]。それはTotal Cost of Ownership(TCO)の低減と、従来のホモジニアスなサーバシステムから、ヘテロジニアスな構成に対応するためということである。このヘテロジニアスな構成が図6と推測できる。

 ハイパースケールデータセンターは、ビッグデータの収集/保存を得意としており、そのストレージの近く、つまりデータセンター内にAI/MLシステムを設置することは理にかなっている。このSuper-Node Fabricに光技術は使用されるのであろうか。

[3]Hong Liu et al., S2A, OFC 2022.
[4]Marc Taubenblatt, et al., Journal of Optical Communications and Networking, 2021.
[5]L. Poutievski et al., ACM SIGCOMM 2022.

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る