Cerebras Systems(以下、Cerebras)は、第2世代のウエハースケールエンジンの能力を披露し、単一デバイスでトレーニングしたAI(人工知能)モデルとして最大記録を樹立したと発表した。
Cerebras Systems(以下、Cerebras)は、第2世代のウエハースケールエンジンの能力を披露し、単一デバイスでトレーニングしたAI(人工知能)モデルとして最大記録を樹立したと発表した。
200億個のパラメーターを持つ自然言語処理ネットワーク「GPT-NeoX 20B」が単一デバイス上でトレーニングされたのは、今回が初めてとなる。これが重要であるのは、以下のような理由のためである。
新しいタイプのニューラルネットワーク、“トランスフォーマー”が台頭しつつある。トランスフォーマーは、その注意メカニズムが文中の単語間の関係を見分けるのに役立つため、現在は主に自然言語処理(NLP)に使用されているが、ビジョンアプリケーションなど他のAIアプリケーションにも広がりを見せている。トランスフォーマーは大きければ大きいほど、精度が高くなる。現在、言語モデルには通常、数十億のパラメーターがあるが、その数は急速に増加しており、勢いが弱まる兆しは見られない。
巨大なトランスフォーマーが使用されている重要な分野の1つは、エピゲノミクスなどのアプリケーションにおける医学研究で、遺伝子の「言語」であるDNA配列をモデル化するために使用されている。
今日の巨大モデルは、ほとんどがマルチプロセッサシステム(通常はGPU)を使ってトレーニングされる。Cerebrasは、「数百のプロセッサにわたる巨大モデルを分割することは、時間のかかるプロセスだ。巨大モデルの分割は、モデルの特性や各プロセッサの特徴(つまり、プロセッサの種類とメモリ容量)、IOネットワークの特徴に基づく、各モデルや特定のマルチプロセッサシステムそれぞれに固有のプロセスであり、この作業は、他のモデルやシステムには移植できない」と説明している。
マルチプロセッサシステムでは通常、以下の3種類の並列処理が実行される。
Copyright © ITmedia, Inc. All Rights Reserved.