メディア

「エッジでもLLMを動かす」　韓国新興DEEPX：HBMではなくLPDDRにこだわる（1/3 ページ）

エッジAI（人工知能）用チップの開発を手掛ける韓国のスタートアップDEEPXが、取り組みを活発化させている。将来的には、LLM（大規模言語モデル）を動作できるようにすることを目指すという。

» 2024年10月21日 15時30分公開

　エッジAI（人工知能）向けチップを手掛ける韓国のスタートアップであるDEEPXは、米国の展示会で数種類の第1世代チップのデモを披露するなど、取り組みを活発化させている。同社は米国EE Timesの取材に対し、オンデバイスAIおよび自律ロボットAIに向けた次世代チップに関する示唆を提示した。

　「V1（旧名称：L1）」は、処理性能5TOPSのDEEPX製NPU（Neural Processing Unit）とクアッドコアRISC-V CPUを搭載したSoC（System on Chip）だ。また、12MP（メガピクセル）のISP（Image Signal Processor）も搭載する。エッジデバイス向けの小型SoCで、価格は10米ドルを下回る。電力効率を高めるべく、Samsung Electronicsの28nmプロセス技術を適用して製造するという。DEEPXはV1のデモで、YOLO v7を30fps（フレーム/秒）で実行し、リアルタイム処理を実現している。パワーエンベロープは1～2Wである。

M.2カードに搭載した「M1」チップ［クリックで拡大］

　「M1」は、より大型のアクセラレーターで、個別のホストCPUと連携可能な設計になっている。5Wの電力で動作可能な25TOPSのDEEPX製NPUを搭載する。デモでは、姿勢推定向けにM.2カードにM1を搭載してYOLO v5を実行しており、恐らく協働ロボット環境の安全性を確保するためだとみられる。また、同じM.2カードで産業用PCの顔認証のようなアプリケーションも実行できる他、カメラシステムやドローン、ロボット向けとしても適している。

　「H1」は、M1チップを使用したマルチチップPCIeカードで、1枚のカードから62チャンネル超のYOLO v7を実行することができる。DEEPXによると、現在のところプロトタイプカードはM1アクセラレーターを8個搭載しているが、ホストCPUがボトルネックとなっているため、製品版ではカードの長さを半分にして4個のM1を搭載する予定だという。

INT8で十分な精度、DEEPXの量子化技術

　DEEPXの“秘伝のソース”の重要な要素となっているのが、量子化技術だ。同社は、「消費電力量の大きいGPUで実行しているアルゴリズムをDEEPXのNPUに移植して導入したい」という潜在顧客からのフィードバックに耳を傾けた。FP32からINT8への量子化が必要だったが、顧客企業は、GPUで実行していたバージョンと比べて精度が低下することを受け入れられなかった。

　DEEPXのCEO（最高経営責任者）であるLokwon Kim氏は、EE Timesの取材に対し、「一般的に、量子化と予測精度（推論精度）はトレードオフの関係にある。導入されたシステムでこの2つのバランスを取るためにイタレーションを行うと、非常に時間がかかり、製品の性能が低下する可能性がある」と説明する。

　DEEPXは、量子化の中のどの箇所で精度が失われるのかを正確に分析し、そのようなポイントにおける精度の低下を軽減するための技術開発に乗り出した。この手法は非常にうまく機能し、一部のモデルでは、量子化されたINT8バージョンの精度が、FP32のオリジナルの精度を上回った。

　Kim氏は、「何かの間違いかと思ったが、そうではなかった。（同じ結果になるのかどうか）イタレーションを行った」と述べる。

　画像システム実装の博士号を持つKim氏は、「これは『シャノンの定理』を打破することのように思えるが、実際に何が起きているのかを理解するには1年かかった」と述べている。実際には、DEEPXの量子化アルゴリズムは過学習を減らし、より一般化できるモデルを生み出していた。

　同氏は、「われわれは幸運だ。これは発明ではなく、“発見”だ」と語った。

GPUより優れたAI精度

　　　　　　 1|2|3 次のページへ