検索
ニュース

32の同時ユーザーで15トークン/秒 TenstorrentがLLMのデモを披露「Llama3.1-70B」で実行(1/2 ページ)

Tenstorrentは、同社の「LoudBox」ワークステーションのデモを披露した。Llama3.1-70B(BF8精度)を、32の同時ユーザー数で15トークン/秒/ユーザー(token/s/user)の速度で実行した。

Share
Tweet
LINE
Hatena

 Tenstorrentは、同社の「LoudBox」ワークステーションのデモを米国EE Timesに提供した。オープンソースのLLM(大規模言語モデル)であるLlama3.1-70B(BF8精度)を、32の同時ユーザー数で15トークン/秒/ユーザー(token/s/user)の速度で実行した。


Tenstorrentの「LoudBox」の外観[クリックで拡大] 出所:Tenstorrent

 一般的に、Q&Aやチャットボットのような人間が読み取れるアプリケーション向けとしては、10トークン/秒/ユーザーを超える速度で十分だと考えられているが、ハイパースケールクラウドプロバイダーが提供している「NVIDIA H100」ベースのAPI(Application Programming Interface)サービスは、約20〜50トークン/秒を実現する。TenstorrentのLoudBoxは、同社の「QuietBox」ワークステーションの空冷バージョンであり、同社の第1世代チップ「Wormhole」ベースのアクセラレーターカードを8枚搭載するシステムだ。ワークステーション型または4Uラックマウントサーバシステムのいずれかで提供する。Tenstorrentのワークステーションの販売価格は1万2000米ドルだが、ハイパースケーラーが使用しているNVIDIAの「DGX-H100」システムは、8GPUシステム当たり30万米ドルを超える。

 TenstorrentはEE Timesの取材に対し、「われわれは、15トークン/秒/ユーザーの性能実現に向けた取り組みを進めており、ソフトウェア最適化によって同じシステム上でさらに2倍に高めることを目指している。ただ、スループットを2倍に向上させ、レイテンシを半減させることが可能な、投機的デコーディング(Speculative Decoding)のような技術の研究には、まだ取り組んでいない。バッチサイズも調整可能だが、32がスイートスポットになるとみている」と述べる。

 TenstorrentのCEO(最高経営責任者)であるJim Keller氏は、EE Timesの取材に応じ、「われわれはこの数値に非常に満足している。第2世代チップ『Blackhole』を提供できる頃には、2〜3倍の性能を実現できるだろう。近いうちに、素晴らしい性能値を達成できる見込みだ。エンジニアリングモデルに必要な数値は確保できているが、エンドツーエンドのカスタマーエクスペリエンスの実現にはまだ至っていないため、現在も開発を進めているさなかだが、かなり順調に進んでいる」と述べる。

LLM APIサービスへの関心が高まる

 業界ではここ数週間に、競合メーカーであるGroqやSambaNova Systems、Cerebras SystemsがLLM APIサービスの開始を発表したことを受け、シングルユーザー速度に対する注目がますます高まっている。これらのメーカーは現在、ハイパースケーラーのNVIDIA H100ベースのAPIサービスが提供する比較的低速なシングルユーザー速度に対抗するために設計された、Llamaやさまざまなオープンソース基盤モデルをベースとしたAPIサービスを提供している。Tenstorrentは現在、主にテスト/開発向けに使われる顧客クラウドを稼働させているが、Keller氏は、TenstorrentベースのクラウドAPIを提供するシステムの構築を検討しているのだろうか。

 「われわれの使命は、RISC-VベースのAI(コア)/CPUであり、IP(Intellectual Property)やチップ、システムなどの販売を手掛け、低レベルのファームウェア/カーネルライブラリからベアメタルスタック/コンパイラに至るまでオープンソースソフトウェアを保有し、MLIR(Multi-Level Intermediate Representation)やいくつかのオープンツールを使用する。競合メーカーは、オープン化しておらず、ハードウェアを販売していないため、われわれは全く異なるビジネスを展開しているといえる」(Keller氏)

Copyright © ITmedia, Inc. All Rights Reserved.

       | 次のページへ
ページトップに戻る