Amazon Web Services(AWS)は、AWSのクラウドサービスに用いられるHabana Labs製AI(人工知能)トレーニング用チップ「Gaudi」ベースのEC2インスタンスを提供する。これは、Intel傘下の新興企業であるHabanaにとって大きな勝利といえる。
Amazon Web Services(AWS)は、AWSのクラウドサービスに用いられるHabana Labs(以下、Habana)製AI(人工知能)トレーニング用チップ「Gaudi」ベースのEC2インスタンスを提供する。これは、Intel傘下の新興企業であるHabanaにとって大きな勝利といえる。AWSでCEOを務めるAndy Jassy氏は、同社主催のカンファレンス「re:Invent」(2020年12月1日[米国時間])の基調講演で、AWSが独自のAIトレーニングチップ「Trainium」を開発したことも発表した。
クラウドプロバイダー各社はこれまで、新たなコンピュータアーキテクチャを用いたサードパーティー製チップへの投資については慎重な姿勢を示し、代わりに独自の専用プロセッサ(Googleの「TPU」、Baiduの「Kunlun」、Alibabaの「Hanguang」、Amazonの「Inferentia」など)を開発する傾向にあった。
例外として、Microsoftのクラウド「Azure」で利用可能なチップ「Graphcore」があるが、“マシンラーニングの限界を押し上げている顧客”を優先する形で提供されている。また、サービスプロバイダーであるNimbixのアクセラレータ「Groq」もあるが、こちらも選ばれた一部の顧客にのみ提供されている。そのため、現在のクラウド業界において、サードパーティーのコンピュータアーキテクチャが採用されるケースは、今回のAWSによるGaudi採用がおよそ初めてではないか。
Jassy氏は基調講演の中で、AWSの目的はAIトレーニングのワークロードに関してGPUに比べより良い価格/性能の選択肢を提供することだと述べた。また、HabanaのGaudiアクセラレーターは顧客によるコスト削減に寄与すると主張した。AWSの内部テストでは、HabanaのGaudiをベースにしたEC2インスタンスにおける価格/性能基準は、既存のGPUベースのEC2インスタンスに比べ最大40%向上したという(AI関連の処理を行っている場合で比較)
Intel傘下のHabana Labsは、イスラエル・テルアビブを拠点とする新興企業である。2019年に発表された同社製のAIトレーニング用チップ「Gaudi」は、8個のVLIW SIMD(Very Long Instruction Word, Single Instruction Multiple Data)ベクタープロセッサコアを有する。同社はこのコアをTPU(Tensor Processor Core)と呼んでいる。加えて、32GBのHBM2(High Bandwidth Memory, Second Generation)メモリを搭載している。また、Gaudiは、非常に大規模なシステムへのスケーリングに向けて、オンチップのRoCE(Remote Direct Memory Access over Converged Ethernet)通信機能も備えている。
AWSは2021年上半期にGaudiベースのEC2インスタンスを提供する予定である。Gaudiを搭載した8枚のカード(冒頭の画像)を格納したEC2インスタンスはそれぞれ、TensorFlow上で行うResNet-50のモデルの学習(トレーニング)において、1秒当たり約1万2000枚の画像を処理できるとする。
Habanaによると、次世代バージョンの7nmのGaudiは現在開発中だという。
Jassy氏は、AWS独自のトレーニング用チップ「Trainium」も発表した。AIトレーニングにかかるコストを、Habanaのチップを使う時よりも、さらに低くすることを目指すという。Jassy氏は詳細については明らかにしなかったものの、AWSがクラウドでのトレーニングに向けて最も低いコストでTrainiumベースのインスタンスを提供する計画であることを示唆した。また、各インスタンスでは極めて高いパフォーマンス(TFLOPS)を実現できる見込みだという。Trainiumベースのインスタンスは2021年に投入される予定だ。
【翻訳:青山麻由子、編集:EE Times Japan】
Copyright © ITmedia, Inc. All Rights Reserved.