Goodwin氏は、「インメモリコンピューティングは、畳み込みニューラルネットワーク(CNN)推論に対して適度なメリットをもたらすが、CNNワークロードでは、行列積や他の演算を混在させなければならない場合が多く、行列やカーネルが小さくなる。インメモリアクセラレーターは、メモリ内で重み係数が固定されるため、プロセッサとメモリ間で重みを転送し続ける必要はない。しかし、チップ上でアクティベーションを移動させることは、まだワークロードの比較的大きな部分を占めているため、インメモリコンピューティングがCNNにもたらす性能メリットは、比較的ささやかなものとなる」と説明する。
LLMの場合、重みの数はアクティベーションよりもはるかに多く、アクティベーションのサイズは小さい。こうしたワークロードの特性により、インメモリコンピューティングが提供するメリットが大きくなる。
Goodwin氏は、「数十億パラメータモデルの特質の1つとなるのが行列乗算であり、特に、非常に幅の広い行列となる。アクティベーションはこのような行列の両端から発生するため、推論向けウェイトの場合と比べて1万分の1程度と非常に小さい。これは、行列やウェイトをメモリ内に固定することによるメリットをどれくらいまで押し上げられるかという観点から見た、設計ポイントの変化だといえる」と述べる。
また同氏は、「インメモリコンピューティングは、LLM向けとして非常に適しているが、CNN時代のために構築された既存の多くのインメモリコンピューティングアーキテクチャには、デメリットもある。LLMはCNNとは異なり、可変長の入力/出力を特徴とするからだ」と付け加えた。
「既存のコンセプトでは、シングルユーザーであってもLLMによって負担が生じる。そこには2つの異なる段階があり、各段階の継続期間は不明だ。例えば、コンパイラのパラダイムが、何をどの順で実行する必要があるのかという固定リストを想定し、特定の方法でチップ全体を流れるようにコンパイルされ、いつトリガーされるのかを計算する場合は、そのシーケンス長に収まるようパディングで埋める必要があるため、本質的に性能が少し低下してしまう」(Goodwin氏)
既存のアーキテクチャが、行列-行列乗法を中心に構築されているのは、データをよりうまく再利用するためであり、また特定のサイズのシストリックアレイが存在するためでもある。プロンプト処理(長いデータシーケンス)とデコードステージ(一度に1ワード)を切り替えるワークロードの場合、行列-ベクトル乗算の方が柔軟性が高く、より適しているとGoodwin氏は付け加え、柔軟性がFractileのアーキテクチャの重要な部分であると述べた。
【翻訳:田中留美、編集:EE Times Japan】
Copyright © ITmedia, Inc. All Rights Reserved.