メディア

Transformerモデルの推論を実行するエッジAIチップ米新興企業Perceive(2/2 ページ)

» 2023年03月01日 15時30分 公開
[Sally Ward-FoxtonEE Times]
前のページへ 1|2       

Transformerモデルを圧縮

 PerceiveはErgo 2向けに、Transformerモデルを圧縮する方法を開発し、その圧縮モデルをハードウェアでサポートしている。

 Perceiveの優位性は、ワークロードの操作、ハードウェアアクセラレーションにそれぞれどの程度依存しているのだろうか。

Perceiveの第2世代エッジAIチップ「Ergo 2」[クリックで拡大] 出所:Perceive Perceiveの第2世代エッジAIチップ「Ergo 2」[クリックで拡大] 出所:Perceive

 Teig氏は、「両方に依存しているが、その大半は確実にソフトウェアまたは計算だといえる。第1に、圧縮が存在する箇所に対して数学的手法を用いること。第2が、ソフトウェアの観点から見ること。そして第3が、半導体チップ/ハードウェア上でニューラルネットワークの表現を加速することである」と述べる。

 Perceiveの圧縮ツールフローは、マクロ、マイクロ、コンパイル3つで構成される。マクロは、大規模圧縮の可能性を見つけ出して利用する。マイクロは、別の圧縮技術を適用してもっと小規模な圧縮の可能性を探し出す。そしてコンパイルステージでは、メモリを管理して電力消費量を最適化する。Ergo 2の性能は、この3つの全てに依存している。

 Perceiveのソフトウェアスタックは、SDKレベルでPytorchモデルを再トレーニングすることにより、ErgoまたはErgo 2との互換性を確保している。また、CPU上で後処理タスク向けに使用するCライブラリの他、顧客側で構築可能で、低消費電力動作向けに最適化されたニューラルネットワークモデルを約20モデルそろえたModel Zooなどもある。

 また、Ergo 2は、アーキテクチャ変更も可能で、例えば新しい統合型メモリ空間(初代Ergoは、ニューラルネットワークおよびオンチップCPU向けに個別のメモリ空間を確保していた)や、Transformerモデル向けのハードウェアサポートなどを備える。Teig氏は、新しいメモリ空間の具体的な大きさについては明かさなかったが、「統合型メモリ空間は、サブシステムでメモリをもっと効率的に共有可能であるということを意味する」と主張している。例えば、画像推論の実行中、まずメモリ全体が最初にフレームバッファーとして使われれることがある。そして、ニューラルネットワークが画像を解析する過程で、CPUが同じメモリを後処理向けに使用する前に、必要に応じて徐々にメモリを占有することが可能だ。

【翻訳:田中留美、編集:EE Times Japan】

前のページへ 1|2       

Copyright © ITmedia, Inc. All Rights Reserved.

RSSフィード

公式SNS

All material on this site Copyright © ITmedia, Inc. All Rights Reserved.
This site contains articles under license from AspenCore LLC.