32の同時ユーザーで15トークン/秒　TenstorrentがLLMのデモを披露：「Llama3.1-70B」で実行（1/2 ページ）

Tenstorrentは、同社の「LoudBox」ワークステーションのデモを披露した。Llama3.1-70B（BF8精度）を、32の同時ユーザー数で15トークン／秒／ユーザー（token/s/user）の速度で実行した。

LINE

Hatena

　Tenstorrentは、同社の「LoudBox」ワークステーションのデモを米国EE Timesに提供した。オープンソースのLLM（大規模言語モデル）であるLlama3.1-70B（BF8精度）を、32の同時ユーザー数で15トークン／秒／ユーザー（token/s/user）の速度で実行した。

Tenstorrentの「LoudBox」の外観［クリックで拡大］出所：Tenstorrent

　一般的に、Q&Aやチャットボットのような人間が読み取れるアプリケーション向けとしては、10トークン／秒／ユーザーを超える速度で十分だと考えられているが、ハイパースケールクラウドプロバイダーが提供している「NVIDIA H100」ベースのAPI（Application Programming Interface）サービスは、約20～50トークン／秒を実現する。TenstorrentのLoudBoxは、同社の「QuietBox」ワークステーションの空冷バージョンであり、同社の第1世代チップ「Wormhole」ベースのアクセラレーターカードを8枚搭載するシステムだ。ワークステーション型または4Uラックマウントサーバシステムのいずれかで提供する。Tenstorrentのワークステーションの販売価格は1万2000米ドルだが、ハイパースケーラーが使用しているNVIDIAの「DGX-H100」システムは、8GPUシステム当たり30万米ドルを超える。

　TenstorrentはEE Timesの取材に対し、「われわれは、15トークン／秒／ユーザーの性能実現に向けた取り組みを進めており、ソフトウェア最適化によって同じシステム上でさらに2倍に高めることを目指している。ただ、スループットを2倍に向上させ、レイテンシを半減させることが可能な、投機的デコーディング（Speculative Decoding）のような技術の研究には、まだ取り組んでいない。バッチサイズも調整可能だが、32がスイートスポットになるとみている」と述べる。

　TenstorrentのCEO（最高経営責任者）であるJim Keller氏は、EE Timesの取材に応じ、「われわれはこの数値に非常に満足している。第2世代チップ『Blackhole』を提供できる頃には、2～3倍の性能を実現できるだろう。近いうちに、素晴らしい性能値を達成できる見込みだ。エンジニアリングモデルに必要な数値は確保できているが、エンドツーエンドのカスタマーエクスペリエンスの実現にはまだ至っていないため、現在も開発を進めているさなかだが、かなり順調に進んでいる」と述べる。

LLM APIサービスへの関心が高まる

　業界ではここ数週間に、競合メーカーであるGroqやSambaNova Systems、Cerebras SystemsがLLM APIサービスの開始を発表したことを受け、シングルユーザー速度に対する注目がますます高まっている。これらのメーカーは現在、ハイパースケーラーのNVIDIA H100ベースのAPIサービスが提供する比較的低速なシングルユーザー速度に対抗するために設計された、Llamaやさまざまなオープンソース基盤モデルをベースとしたAPIサービスを提供している。Tenstorrentは現在、主にテスト／開発向けに使われる顧客クラウドを稼働させているが、Keller氏は、TenstorrentベースのクラウドAPIを提供するシステムの構築を検討しているのだろうか。

　「われわれの使命は、RISC-VベースのAI（コア）／CPUであり、IP（Intellectual Property）やチップ、システムなどの販売を手掛け、低レベルのファームウェア／カーネルライブラリからベアメタルスタック／コンパイラに至るまでオープンソースソフトウェアを保有し、MLIR（Multi-Level Intermediate Representation）やいくつかのオープンツールを使用する。競合メーカーは、オープン化しておらず、ハードウェアを販売していないため、われわれは全く異なるビジネスを展開しているといえる」（Keller氏）

LLM APIサービスはビジネスになるのか

原文へのリンク

　　　　　　 | 次のページへ

32の同時ユーザーで15トークン/秒 TenstorrentがLLMのデモを披露：「Llama3.1-70B」で実行（1/2 ページ）

LLM APIサービスへの関心が高まる

32の同時ユーザーで15トークン/秒　TenstorrentがLLMのデモを披露：「Llama3.1-70B」で実行（1/2 ページ）