A64FXは、13個のコアと8MバイトのL2キャッシュ、メモリコントローラーを1つのグループとした「Core Memory Group(CMG)」という要素が4個集まることで構成される。HBM2は、1個のCMGに8Gバイトがぶら下がるように接続され、各CMGはチップ内ネットワークのリングバスによるccNUMA(cache-coherent NUMA)でキャッシュコヒーレンシが保たれている。
CMG内にある13個のコアの内、1個がOSやI/O処理用のアシスタントコアとして割り当てられ、計算に用いられるコア数は48個となる。それぞれのコアはクロスバー接続されており、L2キャッシュへのスループット高効率化を果たした。また、CMG内でプロセスのバインディングを行うことで、48個の計算コアを用いた場合でも線形的なスケーラビリティを得ることができるとしている。
既報(ポスト京は高密度がカギ、富士通が試作チップを公開)では、「CPUパッケージは2種類の仕様があり、1つ目の仕様『計算ノード』は、48個の計算コアとOSやI/Oを処理する用途で2個のアシスタントコアで構成。もう1つの仕様『IO&計算ノード』では、48個の計算コアと4アシスタントコアを装備する」とお伝えしていた。
しかし、「計算ノード」と「IO&計算ノード」で2種類のチップを用意するわけではなく両方ともA64FXを用いるようで、アシスタントコアの個数は、「ソフトウェアによる制御で有効、無効化を行う」(同社広報)とした。
また、メモリからコアまでのピークバンド幅も公開。アウトオブオーダー機構をコア、キャッシュ、メモリコントローラーに組み込んだことによる広帯域性能をアピールする。
これらの強化により、アプリケーション実行性能において前世代CPUから大きな性能向上を果たしたとする。富士通はSPARC64 XIfxを基準とした各アプリケーションの性能速報値を発表しており、HPC(High Performance Computing)用途例として、流体解析では3倍、大気モデルでは2.8倍、地震波伝搬では3.4倍の性能を発揮するとしている。
また、AI用途での性能向上例も示しており、FP32による畳み込み層計算では2.5倍、低精度(INT8)を用いた畳み込み層計算では9.4倍(予測値)の改善があった。
その他、講演ではA64FXのパワーマネジメントやRAS(Reliability, Availability, Serviceability)機能、ポスト京のソフトウェア開発体制を紹介した。講演資料のサマリーでは、富士通がArmアーキテクチャのプロセッサ開発を継続する方針であることを明記しており、同社の意気込みを感じさせた。
Copyright © ITmedia, Inc. All Rights Reserved.