北陸先端科学技術大学院大学の研究チームは、既存の大規模言語モデル(LLM)に対し、追加学習や構造変更を行うことなく、推論速度を最大4倍に高速化できる新たな推論加速手法「SPECTRA」を提案した。
北陸先端科学技術大学院大学コンピューティング科学研究領域のグエン ミン レ教授らによる研究チームは2025年8月、既存の大規模言語モデル(LLM)に対し、追加学習や構造変更を行うことなく、推論速度を最大4倍に高速化できる新たな推論加速手法「SPECTRA」を提案した。
SPECTRAは、主に2つの要素からなる。コアモジュール「SPECTRA-CORE」とリトリーバルモジュール「SPECTRA-RETRIEVAL」である。それぞれ単独で利用しても高い性能を得られるが、これらを組み合わせて用いれば、既存のスペキュレーティブデコーディング手法に比べ、推論速度が大幅に向上されることを確認した。
SPECTRA-COREは、LLMが予測するトークン分布を活用し、高品質の予測を生成することでスペキュレーティブデコーディングを改善するという。具体的には、双方向検索を可能にする2種類のマルチレベルN-gram辞書を用い、動的な長さを予測することで生成の質と量のバランスを最適化する。さらにSPECTRAは候補プールを最適化し、継続的にN-gram辞書を更新するため、幅広いトークンカバレッジを確保できるという。LLMに対しては、プラグ&プレイ形式で容易に統合できる。
SPECTRA-RETRIEVALは、高品質な外部予測候補を選別することで、性能を一段と高めることが可能となった。対象LLMによって算出されるパープレキシティスコアに基づき、コーパスから高品質のコンテンツのみを選択する。これによって、検索空間を削減しSPECTRA-COREとの統合が容易となり、システム全体の効率性を最大化できるという。
超低輝度時の有機EL素子を評価できる測定システム
複数の核酸や病原体を同時に検出できるバイオセンサー
単層グラフェン膜を用いたNEMSスイッチを開発
「エッジでLLM」を実現するNXPの戦略 鍵はKinara買収とRAG
エッジで使える製造業向け言語モデルを開発、三菱電機
3年かけてついに完成した「CUDA」の代替はAI開発を変えるのかCopyright © ITmedia, Inc. All Rights Reserved.
記事ランキング