メディア

追加学習や構造変更なしでLLMの推論速度を4倍に新たな推論加速の手法を提案

北陸先端科学技術大学院大学の研究チームは、既存の大規模言語モデル(LLM)に対し、追加学習や構造変更を行うことなく、推論速度を最大4倍に高速化できる新たな推論加速手法「SPECTRA」を提案した。

» 2025年08月12日 13時30分 公開
[馬本隆綱EE Times Japan]

「コアモジュール」と「リトリーバルモジュール」で構成

 北陸先端科学技術大学院大学コンピューティング科学研究領域のグエン ミン レ教授らによる研究チームは2025年8月、既存の大規模言語モデル(LLM)に対し、追加学習や構造変更を行うことなく、推論速度を最大4倍に高速化できる新たな推論加速手法「SPECTRA」を提案した。

 SPECTRAは、主に2つの要素からなる。コアモジュール「SPECTRA-CORE」とリトリーバルモジュール「SPECTRA-RETRIEVAL」である。それぞれ単独で利用しても高い性能を得られるが、これらを組み合わせて用いれば、既存のスペキュレーティブデコーディング手法に比べ、推論速度が大幅に向上されることを確認した。

 SPECTRA-COREは、LLMが予測するトークン分布を活用し、高品質の予測を生成することでスペキュレーティブデコーディングを改善するという。具体的には、双方向検索を可能にする2種類のマルチレベルN-gram辞書を用い、動的な長さを予測することで生成の質と量のバランスを最適化する。さらにSPECTRAは候補プールを最適化し、継続的にN-gram辞書を更新するため、幅広いトークンカバレッジを確保できるという。LLMに対しては、プラグ&プレイ形式で容易に統合できる。

 SPECTRA-RETRIEVALは、高品質な外部予測候補を選別することで、性能を一段と高めることが可能となった。対象LLMによって算出されるパープレキシティスコアに基づき、コーパスから高品質のコンテンツのみを選択する。これによって、検索空間を削減しSPECTRA-COREとの統合が容易となり、システム全体の効率性を最大化できるという。

SPECTRAの全体像と、学習不要な他のSOTA(最先端手法)との比較[クリックで拡大] 出所:北陸先端科学技術大学院大学 SPECTRAの全体像と、学習不要な他のSOTA(最先端手法)との比較[クリックで拡大] 出所:北陸先端科学技術大学院大学

Copyright © ITmedia, Inc. All Rights Reserved.

RSSフィード

公式SNS

All material on this site Copyright © ITmedia, Inc. All Rights Reserved.
This site contains articles under license from AspenCore LLC.