Transformerモデルの推論を実行するエッジAIチップ：米新興企業Perceive（1/2 ページ）

XperiからスピンアウトしたAIチップ開発の新興企業Perceiveが、第2世代チップ「Ergo 2」をリリースした。1万パラメータ超のTransformerモデルの推論をエッジで実行可能だという。

LINE

Hatena

　XperiからスピンアウトしたAI（人工知能）チップ開発の新興企業Perceiveが、第2世代チップ「Ergo 2」をリリースした。エッジ上での大規模言語モデル（LLM：Large Language Model）を含むTransformerモデルの推論を、ハードウェアでサポートするという。同社は、米国ラスベガスで2023年1月に開催された「CES 2023」において、Ergo 2チップ上で1億1000万パラメータのトランスフォーマーネットワークである「RoBERTa」を使用し、文章を完成させるデモを披露した。

1億パラメータ超のTransformerモデルをエッジで推論

　Ergo 2は、初代「Ergo」と同様に7×7mmのパッケージでありながら、約4倍の性能向上を達成しているという。このため、1億パラメータ超のTransformerモデルのエッジ推論や、高フレームレートでのビデオ処理、複数の大規模ニューラルネットワーク上での同時推論などを実現可能だ。YoloV5-S推論の場合、Ergo 2上で1秒当たり最大115の推論を実行できる。加えて、1秒当たり30画像を処理するYoloV5-S推論をわずか75mWで実行可能だ。一般的なアプリケーションの消費電力は100mW未満で、最大でも200mWだという。

Ergo 2と前世代のErgoの比較。チップの電力特性が微妙に異なるため、Ergoも引き続き活用できる領域がある［クリックで拡大］出所：Perceive

　Perceiveのニューラルネットワークアクセラレーション手法は、ニューラルネットワークの別の数学的表現と、ハードウェアアクセラレーションとを組み合わせた、独自のモデル圧縮技術をうまく利用している。

　PerceiveのCEO（最高経営責任者）であるSteve Teig氏は、米国EE Timesのインタビューに応じ、「われわれの技術の核心は、徹底した圧縮に対する原理的なアプローチだ。つまり、計算の意味を認識し、その意味を保持しながら、新しい方法でニューラルネットワークを表現するという、数学的に厳密な戦略をとっているということだ」と述べる。

PerceiveのCEO、Steve Teig氏出所：Perceive

　Teig氏は、「Perceiveが現在使用している圧縮技術は、50～100倍のモデル圧縮を定期的に行うことが可能だ」と述べている。

　「当社としては、学習と圧縮はそもそも同じものだと考えている。いずれのタスクも、データの構造を見つけ出し、それを利用する。圧縮可能なデータは、構造化されているから圧縮できるのだ。ランダムデータは、圧縮できない。データ構造を利用できれば、使用するメモリビット数が少なくて済むのだ」（Teig氏）

　Perceiveは、情報理論を使用し、特にアクティベーションの構造を解明している。というのは、既存のほとんどのニューラルネットワークにおいて、メモリフットプリントの大きな割合を占めているのは、重量ではなくアクティベーションであるからだ。アクティベーションを圧縮することで、その保存に必要なメモリを最小限に抑えられる。もし、圧縮されたアクティベーションを直接計算することが難しい場合は、必要に応じて解凍できる。ニューラルネットワークによっては、もう少し先のことになるかもしれないが、その間も、より多くのメモリが解放されることになる。

　Teig氏は、「量子化の場合にはほんの2分の1～4分の1程度のサイズ縮小にとどまるのに対し、アクティベーションを圧縮した場合は、10分の1のサイズ縮小を実現しながら、精度が失われることはない。しかしながら、圧縮と量子化は補完的な関係にある」と述べている。

　この他にもPerceiveが使用している圧縮技術としては、推論計算の要素を、空間的／時間的に並び替える方法がある。例えば、計算の中の依存関係は全て、コンパイル時間で把握されているため、推論は部分問題に分類できる。そしてこれらの部分問題は、必要に応じて再配置される。

　Teig氏は、米国EE Timesが以前に行ったインタビューの中で、「十分な処理能力を達成することで、想像以上に大規模なモデルを実行できる。当社の高速なチップを用いれば、一部の計算を連続で実行し、それらを並列化することで、省スペース化を実現できるようになる」と述べている。

Transformerモデルを圧縮

原文へのリンク

　　　　　　 | 次のページへ