メディア

推奨モデル向けのAIチップ、台湾Neuchipsが設計完了：Metaの「DLRM」の高速化が可能に

台湾のスタートアップ企業であるNeuchipsは、データセンターのレコメンデーション（推奨）モデル向けに特別に設計したAI（人工知能）アクセラレーター「RecAccel」をテープアウトした。

» 2022年07月04日 09時30分公開

　台湾のスタートアップ企業であるNeuchipsは、データセンターのレコメンデーション（推奨）モデル向けに特別に設計したAI（人工知能）アクセラレーター「RecAccel」をテープアウトした。同チップのエミュレーションでは、DLRM（深層学習レコメンデーションモデル）の実行において、1ジュール当たり100万推論（または、20Wのチップ当たり毎秒2000万推論）を達成する「市場で唯一」（同社）のソリューションになる見通しだという。同社は既に、NeuchipsのソフトウェアがFP32（32ビット浮動小数点）精度で99.97％を達成し、世界最先端のINT8 DLRM精度を実現できることを実証している。

　Neuchipsは、2019年にFacebook（現Meta）がレコメンデーション特化の推論向けハードウェアアクセラレーションに取り組むよう業界に呼びかけたことで設立され、その実現を目指している。同分野に特化したスタートアップの参入企業はわずか2社しかないが、Neuchipsはそのうちの1社である（もう1社は、1000コアのRISC-V設計を手掛ける米国のEsperanto Technologies）

　NeuchipsのCEO（最高経営責任者）を務めるYoun-Long Lin氏は米国EE Timesに対し、「データセンターのAI推論サイクルのほとんどは、実際にはビジョン推論や言語推論ではなく、レコメンデーションモデル向けであることは多数報告されている。そのため当社は、レコメンデーション特化の推論は重要な市場だと考えている」と述べ、「必要とされる推論の数は着実に増加している」と付け加えた。同氏は、「消費電力は変えられないので、本質的な問題は、予測精度を上げるためにエネルギーバジェット内でどれだけのことができるかだ」と指摘する。

　予測精度は、オンラインショッピングなどの推奨アプリケーションにとって非常に重要である。精度が低下すると、それに対応してオンラインショッピングプラットフォームの収益が減少してしまう。

　MetaのオープンソースのレコメンデーションモデルであるDLRMには、コンピュータビジョンに広く使われているCNN（畳み込みニューラルネットワーク）とは全く違う特性がある。顧客の年齢や収入など連続した値を有する高密度機能は、多層パーセプトロン（ニューラルネットワークの一種であるMLP）によって抽出され、スパース機能（「はい」または「いいえ」の質問）は埋め込みテーブルを使用する。数百以上の機能が存在する可能性があり、埋め込みテーブルのサイズはギガバイトクラスになる場合もある。これらの機能間の相互作用は、オンラインショッピングプラットフォームの商品とユーザーの関係を示している。これらの相互作用は明示的に計算される。DLRMはドット積を使用し、これらの相互作用は別のニューラルネットワークを経由する。

DLRMレコメンデーションネットワークの構成。ニューラルネットワークはオレンジ色で、埋め込みテーブルは紫色で、ドット積は緑色で示されている［クリックで拡大］出所：Meta

　ニューラルネットワークの計算は演算能力で決定されるが、DLRMに必要なその他の工程は、メモリ容量やメモリ帯域幅、通信量の制約を受ける場合がある。そのためDLRMは、画像処理などのアプリケーション向けに開発された汎用AIアクセラレーターで高速化することが非常に難しいモデルとなっている。

　Neuchipsの新しいASICソリューションであるRecAccelは、埋め込み（下図の紫色）、行列乗算（オレンジ色）、相互作用特徴量（緑色）を高速化するため特別に設計された組み込みエンジンを搭載している。

「RecAccel」に搭載されたハードウェアエンジン［クリックで拡大］出所：Neuchips

　「同エンジンでは、複数のテーブルを同時に高速に検索することが課題となる」とLin氏は説明する。「レコメンデーションモデルのサイズは、非常に小規模なものから大規模なものまで、さまざまだ。重要なのはオフチップとオンチップ、両方のメモリに、いかに適切にテーブルを割り当てるかだ」（同氏）

　Neuchipsの組み込みエンジンは、斬新なキャッシュ設計とDRAMトラフィック最適化技術により、オフチップメモリへのアクセスが50％削減し、帯域幅使用率は30％向上したという。

　RecAccelは10個の演算エンジンを搭載している。各エンジンには16KのMAC（積和演算）が搭載されている。「ここで重要なのは、この演算エンジンをいかに低消費電力で実装し、スパース行列を効率的に扱えるようにするかだ」とLin氏は述べる。同演算エンジンは、SoCレベルで、推論1回当たり1μJ（マイクロジュール）を消費する。なお、ハードウェアの機能として、ある一定の精度に達した時点で演算を終了し、電力消費を節約することもできるという。

　なお、Neuchipsは既に、コンパイラやツールチェーンなどを含む包括的なソフトウェアスタックも準備している。

【翻訳：滝本麻貴、編集：EE Times Japan】

原文へのリンク

カナダでの事業拡大を狙う米ファブレス企業Astera Labs
米国のファブレス半導体メーカーであるAstera Labsは最近、カナダでの事業を拡大したが、これは単に従業員数を増やしたというだけではない。同社がグレータートロントエリアに設立した新しい研究開発デザインセンターは、カナダでの成長の序章に他ならない。
米新興企業、光I/OチップレットでNVIDIAと協業へ
米国カリフォルニア州に拠点を置く新興企業Ayar Labsは、同社のチップ間光通信技術を中心としたエコシステムを構築するという。NVIDIAとの協業により、光I/O技術を適用した次世代アーキテクチャの開発に取り組んでいるところだ。
2025年に「PCIe 7.0」策定へ、最大512GB/秒を目指す
高速バスインタフェース「PCIe（Peripheral Component Interconnect Express）」仕様の第6版は2022年初めに発表されたばかりだが、同仕様を管理するPCI Special Interest Group（SIG）は既に「PCIe 7.0」を見据えている。
NXP、車載用プロセッサ「S32Z／S32E」を発表
NXP Semiconductorsは、ソフトウェア・デファインド・ビークル（SDV）に向けた車載用リアルタイムプロセッサとして、車両制御を主なターゲットにした「S32Zファミリー」と「S32Eファミリー」を発表した。
TSMC、フィン構造を選べる3nmノードを発表
TSMCは、3nm FinFETノードを発表した。2022年後半に量産を開始する予定としている。同技術は、半導体設計における性能と電力効率、トランジスタ密度を向上させることができるだけでなく、これらのオプションのバランスを選択することも可能だという。
EV向けも登場、商業展開が加速するグラフェンバッテリー
グラフェンをバッテリーやその他のエネルギー貯蔵デバイス（スーパーキャパシターなど）に応用する学術的な研究開発は何年にもわたって行われてきたが、現在では、さまざまな最終用途をターゲットにした商業製品が市場に出回っている。これは、ここ数年の間に顕在化したものだ。市場の立ち上がりは遅かったかもしれないが、続々と製品が市場に投入され、この傾向は2022年前半まで続いている。