ベールを脱いだ「ポスト京」CPU、アーキと性能を見る：倍精度ピーク性能は2.7TFLOPS以上（2/2 ページ）

富士通は2018年8月22日、ポスト「京」に搭載するCPUの詳細を公開した。同社は、LSIに関するシンポジウム「Hot Chips 30」（2018年8月19日～21日、米国カリフォルニア州シリコンバレー）で、同チップに関する講演を行っている。本稿では、公開された講演資料から読み取れるアーキテクチャや性能を紹介する。

[松本貴志，EE Times Japan] PC用表示関連情報

LINE

Hatena

前のページへ | 　　　　　　

コアとL2キャッシュ、メモリコントローラーをまとめるCMG

　A64FXは、13個のコアと8MバイトのL2キャッシュ、メモリコントローラーを1つのグループとした「Core Memory Group（CMG）」という要素が4個集まることで構成される。HBM2は、1個のCMGに8Gバイトがぶら下がるように接続され、各CMGはチップ内ネットワークのリングバスによるccNUMA（cache-coherent NUMA）でキャッシュコヒーレンシが保たれている。

CMGの構成とチップコンフィギュレーション（クリックで拡大）出典：富士通

　CMG内にある13個のコアの内、1個がOSやI/O処理用のアシスタントコアとして割り当てられ、計算に用いられるコア数は48個となる。それぞれのコアはクロスバー接続されており、L2キャッシュへのスループット高効率化を果たした。また、CMG内でプロセスのバインディングを行うことで、48個の計算コアを用いた場合でも線形的なスケーラビリティを得ることができるとしている。

　既報（ポスト京は高密度がカギ、富士通が試作チップを公開）では、「CPUパッケージは2種類の仕様があり、1つ目の仕様『計算ノード』は、48個の計算コアとOSやI/Oを処理する用途で2個のアシスタントコアで構成。もう1つの仕様『IO&計算ノード』では、48個の計算コアと4アシスタントコアを装備する」とお伝えしていた。

　しかし、「計算ノード」と「IO&計算ノード」で2種類のチップを用意するわけではなく両方ともA64FXを用いるようで、アシスタントコアの個数は、「ソフトウェアによる制御で有効、無効化を行う」（同社広報）とした。

　また、メモリからコアまでのピークバンド幅も公開。アウトオブオーダー機構をコア、キャッシュ、メモリコントローラーに組み込んだことによる広帯域性能をアピールする。

メモリからコアまでのピークバンド幅（クリックで拡大）出典：富士通

前世代CPUから約3倍以上の実行性能向上を達成、AIでは9倍以上も

　これらの強化により、アプリケーション実行性能において前世代CPUから大きな性能向上を果たしたとする。富士通はSPARC64 XIfxを基準とした各アプリケーションの性能速報値を発表しており、HPC（High Performance Computing）用途例として、流体解析では3倍、大気モデルでは2.8倍、地震波伝搬では3.4倍の性能を発揮するとしている。

　また、AI用途での性能向上例も示しており、FP32による畳み込み層計算では2.5倍、低精度（INT8）を用いた畳み込み層計算では9.4倍（予測値）の改善があった。

A64FXとSPARC64 XIfx、SPARC64 VIIIfxの概要比較（クリックで拡大）出典：富士通

　その他、講演ではA64FXのパワーマネジメントやRAS（Reliability, Availability, Serviceability）機能、ポスト京のソフトウェア開発体制を紹介した。講演資料のサマリーでは、富士通がArmアーキテクチャのプロセッサ開発を継続する方針であることを明記しており、同社の意気込みを感じさせた。

講演資料のサマリーページ（クリックで拡大）出典：富士通

ベールを脱いだ「ポスト京」CPU、アーキと性能を見る：倍精度ピーク性能は2.7TFLOPS以上（2/2 ページ）

コアとL2キャッシュ、メモリコントローラーをまとめるCMG

前世代CPUから約3倍以上の実行性能向上を達成、AIでは9倍以上も

関連記事

関連リンク