小型高性能のエッジAI新興Axelera、初期チップをデモ：5000万米ドルを新たに調達

エッジAIアクセラレーターを手掛ける欧州のスタートアップAxelera AIが、「Embedded Vision Summit 2023」（米国カリフォルニア州／2023年5月23～25日）で、動作可能な初期チップのデモを披露した。

LINE

Hatena

　エッジAI（人工知能）アクセラレーターを手掛ける欧州のスタートアップAxelera AI（以下、Axelera）は、米国カリフォルニア州サンタクララで2023年5月23～25日に開催された「Embedded Vision Summit 2023」において、動作可能な半導体チップのデモを披露した。

Axelera AIは4週間前に完成したというファーストシリコンのデモを公開していた［クリックで拡大］

　また、同社は、半導体スタートアップにとって資金調達が難しくなっていく中、オーバーサブスクライブのシリーズAラウンドにおいて、5000万米ドルの資金を調達したと発表している。新たな投資家として、CDP Venture CapitalやVerve Venturesの他、Axeleraに資金提供するために設立されたFractioneleraなどのコンソーシアムが参加したという。

　AxeleraのCEO（最高経営責任者）であるFabrizio Del Maffeo氏は、米国EE Timesのインタビューに応じ、「今回の資金を利用して、当社のアクセラレーター『Metis』の生産や販売力を拡大する他、設立間もない米国の事業拠点を拡充していきたい。また、次世代バージョンのアクセラレーターの開発にも資金を充てるつもりだ」と述べている。

Axelera AIの2つのコア技術

　AxeleraのCTO（最高技術責任者）を務めるEvangelos Eleftheriou氏は、「当社のMetisチップは、2種類のコア技術の採用を特長としている。デジタルインメモリコンピューティングベースの行列-ベクトル乗算（MVM：Matrix-Vector Multiplication）アクセラレーターと、データフローを制御するRISC-Vコアだ。Metisチップは、クアッドコア設計によって214TOPSのピーク性能と14.7TOPS/Wのピーク効率を達成できる」と述べている。

　「設計は全て、最後のトランジスタに至るまで手作業で行う。その理由は、面積とエネルギー消費量を最小化するためだ」（Eleftheriou氏）

　また、同氏は、「ブロックは、フラグを使用して無効化できるため、エネルギー効率は利用率の高さに依存しない。コアレベルでは、100％の利用率で効率は14.1TOPS/Wだが、利用率を6.2％まで下げても、Metisは11.4TOPS/Wを達成できる」と付け加えた。

デジタルインメモリコンピューティングベースのMVMアクセラレーター［クリックで拡大］出所：Axelera AI

　Axeleraによる52.5TOPSの性能を有するMVMアクセラレーターは、高密度にインターリーブされた重みストレージと計算ユニットを搭載する。この設計では、スループットを維持するためにパイプライン方式を採用している。INT8は重みに使用し、INT32にアキュムレートする。FP32は、アクティベーションに使用する。これは、精度を維持するために行うもので、INT8で量子化されたResNet-50モデルを実行すると、再トレーニングなしでも、量子化されていないFP32モデルと比べてわずか0.1パーセントポイントの損失にとどまる。

　Eleftheriou氏は、「われわれは、どのような最適化を行う必要があるのかを理解するために、大量のシミュレーションを行った。一般的にニューラルネットワークは、重み精度に関しては寛容だが、アクティベーション精度に関しては寛容ではないということが分かった」と述べる。

Metisチップのブロック図［クリックで拡大］出所：Axelera AI

　各AIコアには、メモリマップドIOのデータフローを管理するための小型のRISC-V CPUが搭載されている。Eleftheriou氏は、「これは、スカラー浮動小数点演算ユニットだが、次世代半導体チップではベクトル拡張が追加される可能性がある」と述べる。

　AIコアのDPU（Data Processing Unit）は、要素ごとの動作やアクティベーションに対応する（アクティベーションは、FP32で計算して精度を確保してから、INT8に縮小される）。

　1TOPSのDWPU（Depth-Wise Processing Unit）は、プーリングや深さ方向畳み込み（depth-wise convolution）、アップサンプリングなどに使われる。Eleftheriou氏は、「これらの演算はMVMでも可能だが、効率は良くない」と述べている。

　各コアには4MバイトのL1キャッシュに加え、インメモリMVM演算用に1MバイトのSRAMが搭載されている（1Mバイトのうち、4分の1は演算に、残りはデータのプリフェッチに使われる）。重みとアクティベーションは、32Mバイトの共有L2に置くことができる。L2はコア間のデータ転送にも使用される。また、LPDDR4xインタフェースがあり、最大4Gバイトの外部メモリを接続可能だ。

　モデルは、個々のコアでの同時実行（異なるモデルの同時実行またはバッチ処理）やカスケード／パイプライン実行、または大きなモデルを複数のコアに分散して実行することができる。分散して実行する場合、L2キャッシュはコア間のデータ交換に使用される。

　Axeleraのソフトウェアスタックは利用可能だ。複数のニューラルネットワークのパイプライン（および画像の前後処理）は、YAMLファイルで簡単に設計できる。

【翻訳：田中留美、編集：EE Times Japan】

原文へのリンク

小型高性能のエッジAI新興Axelera、初期チップをデモ：5000万米ドルを新たに調達

Axelera AIの2つのコア技術

関連記事