32の同時ユーザーで15トークン/秒　TenstorrentがLLMのデモを披露：「Llama3.1-70B」で実行（2/2 ページ）

Tenstorrentは、同社の「LoudBox」ワークステーションのデモを披露した。Llama3.1-70B（BF8精度）を、32の同時ユーザー数で15トークン／秒／ユーザー（token/s/user）の速度で実行した。

[Sally Ward-Foxton，EE Times] PC用表示関連情報

LINE

Hatena

前のページへ | 　　　　　　

LLM APIサービスはビジネスになるのか

TenstorrentのCEO（最高経営責任者）であるJim Keller氏出所：Tenstorrent

　Keller氏は、「クラウドLLM APIをベースとしたアプリケーション／サービスが利益をもたらす可能性については、まだ実証されていない」と指摘する。

　「ビジネスモデルは複雑だが、それはハードウェアの問題なのではなく、ビジネスモデルやソフトウェアイノベーションの問題であるようだ」（Keller氏）

　同氏は「ビジネスモデルの複雑さや、ハイパースケーラーとの競争で大きな差をつけられていることの他、顧客プライバシーやデータ来歴（Data Provenance）に関する問題などが組み合わさって、こうした方向への動きが妨げられている」と述べる。

　「（LLM APIがもたらす利益については）個人的にも関心を持っているが、推論サービスを提供するためのデータセンター構築に何百万米ドルも投じようとは思わない。何が起こるかは誰にも分からないからだ。潤沢な資金を持つ企業が数十億米ドルもの大金を投じてホスティングを提供しているが、それは、超大手企業だからできることだ。われわれにはそのような大金はない」（Keller氏）

　また同氏は、「Tenstorrentのターゲット顧客は現在も、10万～1億米ドルのハードウェアを調達する企業である。このような企業は自社システムを保有し、ソフトウェアへのオープンソースアクセスを確保したいと考えている。Hardware-As-A-Service（HaaS）モデルは、これまで成功が実証されていない」と付け加えた。

　「あらゆるタイプのクリエイティブな人々が、サービスとしてAIを実行するための方法を見つけ出そうとするだろう。私はまだ、『もっと多くの資金を投じたいと思えるようなエキサイティングな新しいビジネスモデルに取り組んでもらえないか』と持ち掛けられたことがない。われわれはただ、IPやハードウェアを販売したいだけなのだ」（Keller氏）

チップレットの標準規格

　Tenstorrentのチームは、EE Timesが最後に訪問した時以来、数々の興味深いプロジェクトに取り組んできた。

　同社の第3世代技術は、チップレットベースとなる予定で、これらのチップレット設計を継続するという。チップレット標準の承認を待つのではなく、独自の取り組みを進めているのだ。

　Keller氏は、「UCIe（Universal Chiplet Interconnect Express）は標準規格を定義しているが、CXL（Compute Express Link）と同じように、定義する規格数が多過ぎる。問題は、全ての人々を満足させようとすると誰も満足しないということだ」と続けた。

　「TenstorrentのDie-to-Die（D2D）インタフェースの開発は容易ではなかったが、結果としてうまく機能している。われわれは、優れた面積効率でうまく動作することが可能なものを開発すべく、Blue Cheeta Analog Designとの密接な連携により、同社のBunch of Wire（BoW）PHYを改良した」（Keller氏）

　「われわれは、チップレット標準を策定するかのように、何から何まで構築することに決めたのだ。一部を補わなければならなかったため標準規格ではないが、現在では標準として確立している」

【翻訳：田中留美、編集：EE Times Japan】

原文へのリンク

32の同時ユーザーで15トークン/秒 TenstorrentがLLMのデモを披露：「Llama3.1-70B」で実行（2/2 ページ）

LLM APIサービスはビジネスになるのか

チップレットの標準規格

関連記事

32の同時ユーザーで15トークン/秒　TenstorrentがLLMのデモを披露：「Llama3.1-70B」で実行（2/2 ページ）