検索
ニュース

Transformerモデルの推論を実行するエッジAIチップ米新興企業Perceive(1/2 ページ)

XperiからスピンアウトしたAIチップ開発の新興企業Perceiveが、第2世代チップ「Ergo 2」をリリースした。1万パラメータ超のTransformerモデルの推論をエッジで実行可能だという。

Share
Tweet
LINE
Hatena

 XperiからスピンアウトしたAI(人工知能)チップ開発の新興企業Perceiveが、第2世代チップ「Ergo 2」をリリースした。エッジ上での大規模言語モデル(LLM:Large Language Model)を含むTransformerモデルの推論を、ハードウェアでサポートするという。同社は、米国ラスベガスで2023年1月に開催された「CES 2023」において、Ergo 2チップ上で1億1000万パラメータのトランスフォーマーネットワークである「RoBERTa」を使用し、文章を完成させるデモを披露した。

1億パラメータ超のTransformerモデルをエッジで推論

 Ergo 2は、初代「Ergo」と同様に7×7mmのパッケージでありながら、約4倍の性能向上を達成しているという。このため、1億パラメータ超のTransformerモデルのエッジ推論や、高フレームレートでのビデオ処理、複数の大規模ニューラルネットワーク上での同時推論などを実現可能だ。YoloV5-S推論の場合、Ergo 2上で1秒当たり最大115の推論を実行できる。加えて、1秒当たり30画像を処理するYoloV5-S推論をわずか75mWで実行可能だ。一般的なアプリケーションの消費電力は100mW未満で、最大でも200mWだという。

Ergo 2と前世代のErgoの比較。チップの電力特性が微妙に異なるため、Ergoも引き続き活用できる領域がある[クリックで拡大] 出所:Perceive
Ergo 2と前世代のErgoの比較。チップの電力特性が微妙に異なるため、Ergoも引き続き活用できる領域がある[クリックで拡大] 出所:Perceive

 Perceiveのニューラルネットワークアクセラレーション手法は、ニューラルネットワークの別の数学的表現と、ハードウェアアクセラレーションとを組み合わせた、独自のモデル圧縮技術をうまく利用している。

 PerceiveのCEO(最高経営責任者)であるSteve Teig氏は、米国EE Timesのインタビューに応じ、「われわれの技術の核心は、徹底した圧縮に対する原理的なアプローチだ。つまり、計算の意味を認識し、その意味を保持しながら、新しい方法でニューラルネットワークを表現するという、数学的に厳密な戦略をとっているということだ」と述べる。

PerceiveのCEO、Steve Teig氏 出所:Perceive
PerceiveのCEO、Steve Teig氏 出所:Perceive

 Teig氏は、「Perceiveが現在使用している圧縮技術は、50〜100倍のモデル圧縮を定期的に行うことが可能だ」と述べている。

 「当社としては、学習と圧縮はそもそも同じものだと考えている。いずれのタスクも、データの構造を見つけ出し、それを利用する。圧縮可能なデータは、構造化されているから圧縮できるのだ。ランダムデータは、圧縮できない。データ構造を利用できれば、使用するメモリビット数が少なくて済むのだ」(Teig氏)

 Perceiveは、情報理論を使用し、特にアクティベーションの構造を解明している。というのは、既存のほとんどのニューラルネットワークにおいて、メモリフットプリントの大きな割合を占めているのは、重量ではなくアクティベーションであるからだ。アクティベーションを圧縮することで、その保存に必要なメモリを最小限に抑えられる。もし、圧縮されたアクティベーションを直接計算することが難しい場合は、必要に応じて解凍できる。ニューラルネットワークによっては、もう少し先のことになるかもしれないが、その間も、より多くのメモリが解放されることになる。

 Teig氏は、「量子化の場合にはほんの2分の1〜4分の1程度のサイズ縮小にとどまるのに対し、アクティベーションを圧縮した場合は、10分の1のサイズ縮小を実現しながら、精度が失われることはない。しかしながら、圧縮と量子化は補完的な関係にある」と述べている。

 この他にもPerceiveが使用している圧縮技術としては、推論計算の要素を、空間的/時間的に並び替える方法がある。例えば、計算の中の依存関係は全て、コンパイル時間で把握されているため、推論は部分問題に分類できる。そしてこれらの部分問題は、必要に応じて再配置される。

 Teig氏は、米国EE Timesが以前に行ったインタビューの中で、「十分な処理能力を達成することで、想像以上に大規模なモデルを実行できる。当社の高速なチップを用いれば、一部の計算を連続で実行し、それらを並列化することで、省スペース化を実現できるようになる」と述べている。

       | 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る