検索
連載

AMDが開発した第4世代のZenコア「Zen4」の概要福田昭のデバイス通信(373)(2/2 ページ)

今回は、Zenアーキテクチャのx86互換64ビットCPUコアで第4世代となる「Zen4」の概要をご紹介する。

PC用表示 関連情報
Share
Tweet
LINE
Hatena
前のページへ |       

「Zen3」に数多くの改良を加えた「Zen4」のマイクロアーキテクチャ

 「Zen4」のマイクロアーキテクチャは、前世代の「Zen3」をベースに数多くの改良を加えた。分岐予測の強化(サイクル当たりに2つの分岐を予測、分岐先バッファ(BTB)の拡大)、マイクロOpキャッシュ(内部命令キャッシュ)の増量、命令リタイアキューの拡大、整数レジスタファイルと浮動小数点レジスタファイルの拡張、AVX-512命令セットのサポート、ロード/ストアの改良、2次キャッシュの拡大、などがある。


「Zen4」のマイクロアーキテクチャ。前世代の「Zen3」をベースに改良を加えた[クリックで拡大] 出所:AMD

「Zen3」と「Zen4」の比較。Zen4では、ロードキュー(LDQ)のエントリ数を増やす、マイクロOpキャッシュが格納可能な命令数を増やす、2次(L2)キャッシュ容量を2倍に拡大、2次TLBのエントリ数を1.5倍に増加、整数レジスタファイルと浮動小数点レジスタファイルの増量、ROB(リオーダーバッファ)の増加、1次BTBと2次BTBの拡大などの改良がみられる[クリックで拡大] 出所:AMD

 特筆すべきは浮動小数点演算で256ビット幅のAVX-512拡張命令をサポートしたことだろう。AVX-512には数多くの命令セットがあり、Zen4ではVNNI(Vector Neural Network Instruction)命令やBFloat16命令といった機械学習の処理を高速化する命令をサポートする。

 その結果、Zen3コアのプロセッサ(64コア構成のEPYC)に比べ、Zen4のプロセッサ(96コア構成のEPYC)は自然言語処理のスループットが約4.2倍、画像分類処理のスループットが約3倍、物体検出処理のスループットが約3.5倍と大きく向上したという。


「Zen4」コアがサポートするAVX-512拡張命令セット(左)と、EPYCプロセッサが機械学習の推論処理に適用した場合の性能比較(右)。出所:AMD

5nmのFinFETプロセスでTSMCが製造

 前回で述べたように、第4世代のEPYCプロセッサである「EPYC 9004」シリーズは8個のCPUコアを内蔵したミニダイ(チップレット)を入出力ミニダイとともに基板に搭載した。CPUコアを内蔵するミニダイ(CCD)は、Zen4コアとコアごとの2次キャッシュ、共有3次キャッシュ、入出力ダイとのインタフェース回路で構成される。製造技術は5nmのFinFETプロセス。製造担当企業はTSMCである。

 AMDは新製品発表会「together we advance_data centers」で、Zen4コアと2次キャッシュを含めたシリコンの面積を3.84mm2としていた。8個のコアを搭載するので、単純計算では30.72mm2となる。これに32Mバイトの共有3次キャッシュとインタフェース回路を加えると、1枚のCCDが出来上がる。


CPUコアと2次キャッシュを含めたシリコンの面積。Zen4と、Intelの10nmプロセスによるCPUコア(Sunny Cove)を比較した。2022年11月10日(米国時間)にAMDが開催した新製品発表会「together we advance_data centers」の講演を筆者が撮影したもの[クリックで拡大]

Zen4コアと2次キャッシュを含めたシリコンの回路レイアウト。2022年11月10日(米国時間)にAMDが開催した新製品発表会「together we advance_data centers」の講演を筆者が撮影したもの。中央はAMDのCTO兼EVP(テクノロジーおよびエンジニアリング担当)をつとめるMark Papermaster氏[クリックで拡大]

(次回に続く)

⇒「福田昭のデバイス通信」連載バックナンバー一覧

Copyright © ITmedia, Inc. All Rights Reserved.

前のページへ |       
ページトップに戻る