メディア

シングルプロセッサで200億パラメーターを持つAIモデルを学習：Cerebrasのウエハースケールエンジン（1/3 ページ）

Cerebras Systems（以下、Cerebras）は、第2世代のウエハースケールエンジンの能力を披露し、単一デバイスでトレーニングしたAI（人工知能）モデルとして最大記録を樹立したと発表した。

» 2022年07月08日 13時30分公開

　200億個のパラメーターを持つ自然言語処理ネットワーク「GPT-NeoX 20B」が単一デバイス上でトレーニングされたのは、今回が初めてとなる。これが重要であるのは、以下のような理由のためである。

なぜ、これほど大きなモデルをトレーニングする必要があるのか？

　新しいタイプのニューラルネットワーク、“トランスフォーマー”が台頭しつつある。トランスフォーマーは、その注意メカニズムが文中の単語間の関係を見分けるのに役立つため、現在は主に自然言語処理（NLP）に使用されているが、ビジョンアプリケーションなど他のAIアプリケーションにも広がりを見せている。トランスフォーマーは大きければ大きいほど、精度が高くなる。現在、言語モデルには通常、数十億のパラメーターがあるが、その数は急速に増加しており、勢いが弱まる兆しは見られない。

　巨大なトランスフォーマーが使用されている重要な分野の1つは、エピゲノミクスなどのアプリケーションにおける医学研究で、遺伝子の「言語」であるDNA配列をモデル化するために使用されている。

単一デバイスで行われたことが、なぜ重要なのか？

　今日の巨大モデルは、ほとんどがマルチプロセッサシステム（通常はGPU）を使ってトレーニングされる。Cerebrasは、「数百のプロセッサにわたる巨大モデルを分割することは、時間のかかるプロセスだ。巨大モデルの分割は、モデルの特性や各プロセッサの特徴（つまり、プロセッサの種類とメモリ容量）、IOネットワークの特徴に基づく、各モデルや特定のマルチプロセッサシステムそれぞれに固有のプロセスであり、この作業は、他のモデルやシステムには移植できない」と説明している。

　マルチプロセッサシステムでは通常、以下の3種類の並列処理が実行される。

モデルが単一のプロセッサに適合する場合、他のプロセッサに複製し、データのサブセットを使用して各プロセッサをトレーニングすることができる。これはデータ並列処理と呼ばれ、比較的簡単な処理である。
モデルが1つのプロセッサに適合しない場合、モデルをプロセッサ間で分割し、それぞれで1つ以上のレイヤーを実行することができる。これはパイプラインモデル並列処理と呼ばれる。ただし、レイヤーは順番に実行する必要があるため、ユーザーは、ボトルネックがないことを確認するために、各レイヤーに必要なメモリとIOの量を手動で評価しなければならない。データ並列処理よりも複雑な処理である。
モデルのレイヤーが非常に大きくて1つのプロセッサに適合しない場合は、さらに複雑になる。テンソルモデルの並列性を利用して、レイヤーをプロセッサ間で分割する必要があり、メモリとIOバンド幅にも負担をかける複雑さの次元が追加される。

ウエハーサイズプロセッサの能力

　　　　　　 1|2|3 次のページへ