1000コアを搭載、RISC-VベースのAIアクセラレーター：EsperantoがHot Chips 33で発表（1/2 ページ）

LINE

Hatena

「RISC-V」でハイエンドを

　新興企業Esperantoは、これまで開発の詳細を明らかにしてこなかったが、2021年8月22～24日にオンラインで開催された「Hot Chips 33」において、業界最高性能を実現する商用RISC-Vチップとして、ハイパースケールデータセンター向けの1000コア搭載AI（人工知能）アクセラレーター「ET-SoC-1」を発表した。このチップは、10～60Wの幅広い電力プロファイルで動作可能だが、スイートスポットの電力は、チップ当たり20Wだという。この構成により、6個のET-SoC-1をアクセラレーターカード「Glacier Point」に搭載することで、合計消費電力量を120W未満に維持することが可能だ。6個のET-SoC-1で、合計約800TOPSの性能を達成する。

Esperantoの創設者でありエグゼクティブチェアマンを務めるDave Ditzel氏　出典：Esperanto

　ET-SoC-1のRISC-Vコアの数は1093個で、1チップ上に搭載されたRISC-Vコア数としては業界最高という。その内訳は、エネルギー効率の高いAIアクセラレーションエンジンとして機能するカスタムRISC-Vコア「ET-Minion」が1088個と、高周波数のアウトオブオーダー型RISC-Vコア「ET-Maxion」が4個、RISC-Vサービスプロセッサが1個だ。全体的に、エネルギー効率の向上を目指した設計となっている。

　米国EE Timesは、Hot Chips 33の開催に先立ち、Esperantoの創設者でありエグゼクティブチェアマンを務めるDave Ditzel氏にインタビューを行った（同氏が、RISCのベテラン共同開発者であるDavid Patterson氏と共同執筆した論文「The Case for the Reduced Instruction Set Computer」（1980年出版）は、非常に大きな影響を及ぼした）

　Ditzel氏は、「当社は業界で初めて、1つのチップ上に1000個のRISC-Vコアを搭載することに成功した。これまで長年にわたり、メニーコアCPUが話題に上ってきたが、多くの製品が実現されることはなかった。現在市場に出回っているRISC-V製品の大半は、組み込み向けのものである」と述べる。

　「われわれは社内で、『RISC-Vでハイエンドを実現できるということを業界に知らしめようではないか。熟練CPU設計者たちの実力を見せつける時が来た』と鼓舞し合った」（Ditzel氏）

顧客からの要件とは

　Ditzel氏のCPU設計開発チームは、ハイパースケールデータセンターオペレーターから、顧客要件に関する詳細を探り出すことができた。

　同氏は、「開発チームにとって、AIのトレーニングに関しては特に問題がなかったため、トレーニングチップは不要だった。AIトレーニングは通常、オフラインの問題とされる。ハイパースケールのx86ベースのCPUは大容量だが、必ずしも常に最大負荷に達しているわけではない。このため、可能な場合は、その能力をトレーニング用として使うことができる。実際に問題となっているのは、広告分野で要求が高い推論だ。推論では10ミリ秒以下での応答が求められるためだ」と述べている。

6個の「ET-SoC-1」を搭載したアクセラレーターカード「Glacier Point」　出典：Esperanto（クリックで拡大）

　このため、データセンター向けチップに関しては、オンライン広告向けのレコメンデーション推論エンジンを加速させることが重要視されるようになった。ハイパースケーラーがこのような種類のモデルを加速させるために必要とする要件は、非常に明確だ。

　Ditzel氏は、「顧客企業に必要なのは、100MBのオンチップメモリだ。推論で実行する必要があるものは全て、100MBで対応することができる。また、オフチップメモリ向けの外部インタフェースも必要だ。実際に問題になっていたのは、アクセラレーターカード上でどれくらい維持できるのかという点だ。『カードは、チップではなく計算装置である』と考えると、カード上にメモリを搭載できれば、PCIeバスを介してホストにアクセスする場合よりも、はるかに高速なアクセスを実現することができる」と説明する。

　オンチップメモリシステムは、L1、L2、L3キャッシュを備え、合計で100MBをわずかに上回る程度のレジスタファイルを備えたメインメモリシステムをフル搭載する。オンカードメモリシステムは、約100GBのモデルのウェイトとアクティベーションの大半を保持することが可能だ。

　レコメンデーションモデルは、アクセラレーションが難しいことで知られ、それが現在もまだ既存のCPUサーバ上で動作している理由の1つとなっている。

　Ditzel氏は、「例えば、1億人の中から選んだ顧客たちが最近何を購入したのかを調べる場合、カードのメモリにアクセスする必要がある。あらゆる種類のランダムメモリアクセスを行うため、キャッシュが機能しない。もっと古典的なコンピュータの方が必要になるだろう。x86ベースのサーバは、相当量のメモリを使い、プリフェッチを行うため、汎用CPUは、非常にうまくワークロードに対応することができる。このためどのアクセラレータも、これまでレコメンデーション事業への参入が難しかった」と述べる。

　また、FP16／FP32のデータタイプと、INT8への対応も求められる。浮動小数点演算の要件が発生するのは、可能な限り高い予測精度と、傾角の不足を維持することにより、低精度の演算向けのプログラムを移植したり書き換えたりする必要があるからだ。Ditzel氏は、「最先端のx86サーバチップメーカーが、サーバCPUに8ビットのベクトル拡張を追加したのは、つい最近のことだ」と述べている。

　「ハイパースケールデータセンターの大量のx86 CPUサーバ上で実行されている推論の大半は、現在も32ビット浮動小数点だ」（Ditzel氏）

　デュアルM.2カードに搭載されたEsperantoのチップは、既存のx86ベースCPUサーバインフラに備わっているアクセラレータースロットに適合するよう設計されている。このためパワーリミットは120Wで、空冷が必要だ。

　Ditzel氏は、「Esperantoの設計は、Googleの『TPU』やAmazonの『Inferentia』のような企業内の取り組みに対し、直接競合することはない。ハイパースケーラーは、コミュニティー全体で自社用のアクセラレーターチップを構築しようとしている。こうした企業の多くが、オープンコンピューティングやOpen Compute Project（OCP）の正当性を信じている。このため、OCPサーバを調達し、そこに参入するための標準化を求めている。もし競争があれば、彼らはそれを歓迎するだろう。競争を推進することで、何が可能なのかを示したいと考えている」と述べている。

低消費電力を追求したチップ設計

原文へのリンク

　　　　　　 | 次のページへ