推奨モデル向けのAIチップ、台湾Neuchipsが設計完了：Metaの「DLRM」の高速化が可能に

台湾のスタートアップ企業であるNeuchipsは、データセンターのレコメンデーション（推奨）モデル向けに特別に設計したAI（人工知能）アクセラレーター「RecAccel」をテープアウトした。

LINE

Hatena

　台湾のスタートアップ企業であるNeuchipsは、データセンターのレコメンデーション（推奨）モデル向けに特別に設計したAI（人工知能）アクセラレーター「RecAccel」をテープアウトした。同チップのエミュレーションでは、DLRM（深層学習レコメンデーションモデル）の実行において、1ジュール当たり100万推論（または、20Wのチップ当たり毎秒2000万推論）を達成する「市場で唯一」（同社）のソリューションになる見通しだという。同社は既に、NeuchipsのソフトウェアがFP32（32ビット浮動小数点）精度で99.97％を達成し、世界最先端のINT8 DLRM精度を実現できることを実証している。

　Neuchipsは、2019年にFacebook（現Meta）がレコメンデーション特化の推論向けハードウェアアクセラレーションに取り組むよう業界に呼びかけたことで設立され、その実現を目指している。同分野に特化したスタートアップの参入企業はわずか2社しかないが、Neuchipsはそのうちの1社である（もう1社は、1000コアのRISC-V設計を手掛ける米国のEsperanto Technologies）

　NeuchipsのCEO（最高経営責任者）を務めるYoun-Long Lin氏は米国EE Timesに対し、「データセンターのAI推論サイクルのほとんどは、実際にはビジョン推論や言語推論ではなく、レコメンデーションモデル向けであることは多数報告されている。そのため当社は、レコメンデーション特化の推論は重要な市場だと考えている」と述べ、「必要とされる推論の数は着実に増加している」と付け加えた。同氏は、「消費電力は変えられないので、本質的な問題は、予測精度を上げるためにエネルギーバジェット内でどれだけのことができるかだ」と指摘する。

　予測精度は、オンラインショッピングなどの推奨アプリケーションにとって非常に重要である。精度が低下すると、それに対応してオンラインショッピングプラットフォームの収益が減少してしまう。

　MetaのオープンソースのレコメンデーションモデルであるDLRMには、コンピュータビジョンに広く使われているCNN（畳み込みニューラルネットワーク）とは全く違う特性がある。顧客の年齢や収入など連続した値を有する高密度機能は、多層パーセプトロン（ニューラルネットワークの一種であるMLP）によって抽出され、スパース機能（「はい」または「いいえ」の質問）は埋め込みテーブルを使用する。数百以上の機能が存在する可能性があり、埋め込みテーブルのサイズはギガバイトクラスになる場合もある。これらの機能間の相互作用は、オンラインショッピングプラットフォームの商品とユーザーの関係を示している。これらの相互作用は明示的に計算される。DLRMはドット積を使用し、これらの相互作用は別のニューラルネットワークを経由する。

DLRMレコメンデーションネットワークの構成。ニューラルネットワークはオレンジ色で、埋め込みテーブルは紫色で、ドット積は緑色で示されている［クリックで拡大］出所：Meta

　ニューラルネットワークの計算は演算能力で決定されるが、DLRMに必要なその他の工程は、メモリ容量やメモリ帯域幅、通信量の制約を受ける場合がある。そのためDLRMは、画像処理などのアプリケーション向けに開発された汎用AIアクセラレーターで高速化することが非常に難しいモデルとなっている。

　Neuchipsの新しいASICソリューションであるRecAccelは、埋め込み（下図の紫色）、行列乗算（オレンジ色）、相互作用特徴量（緑色）を高速化するため特別に設計された組み込みエンジンを搭載している。

「RecAccel」に搭載されたハードウェアエンジン［クリックで拡大］出所：Neuchips

　「同エンジンでは、複数のテーブルを同時に高速に検索することが課題となる」とLin氏は説明する。「レコメンデーションモデルのサイズは、非常に小規模なものから大規模なものまで、さまざまだ。重要なのはオフチップとオンチップ、両方のメモリに、いかに適切にテーブルを割り当てるかだ」（同氏）

　Neuchipsの組み込みエンジンは、斬新なキャッシュ設計とDRAMトラフィック最適化技術により、オフチップメモリへのアクセスが50％削減し、帯域幅使用率は30％向上したという。

　RecAccelは10個の演算エンジンを搭載している。各エンジンには16KのMAC（積和演算）が搭載されている。「ここで重要なのは、この演算エンジンをいかに低消費電力で実装し、スパース行列を効率的に扱えるようにするかだ」とLin氏は述べる。同演算エンジンは、SoCレベルで、推論1回当たり1μJ（マイクロジュール）を消費する。なお、ハードウェアの機能として、ある一定の精度に達した時点で演算を終了し、電力消費を節約することもできるという。

　なお、Neuchipsは既に、コンパイラやツールチェーンなどを含む包括的なソフトウェアスタックも準備している。

【翻訳：滝本麻貴、編集：EE Times Japan】

原文へのリンク

推奨モデル向けのAIチップ、台湾Neuchipsが設計完了：Metaの「DLRM」の高速化が可能に

関連記事