AMD 3D V-キャッシュ™ テクノロジーを搭載の AMD EPYC™ 9004 プロセッサーがもたらす、テクニカル・コンピューティングのさらなる進化
2023-10-10更新
データセンターおよびAIテクノロジー・プレミア・イベントにおいて、AMDは第4世代AMD EPYC™ プロセッサー・ファミリーに2つの追加プロセッサー・モデルを発表し、第4世代 AMD EPYC™ プロセッサー・ファミリーを拡充しました。まず、AMDはコードネーム「Bergamo」と呼ばれる、クラウド・ネイティブ・コンピューティング向けに構築された業界初のx86プロセッサー、 AMD EPYC™ 97×4 プロセッサーを発表しました。その詳細については、以前の記事をご覧いただければ幸いです。
一方、この記事では、コードネーム「Genoa-X」と呼ばれる AMD 3D V-Cache™ テクノロジーを搭載した AMD EPYC™ 9xx4 プロセッサーについて説明します。
AMD 3D V-Cache テクノロジーを搭載した AMD EPYC™ 9004 プロセッサーは、 AMD 3D V-Cache テクノロジーを搭載した第3世代 AMD EPYC™ 7003 プロセッサーのレガシーを継承し、標準の AMD EPYC™ 9004 プロセッサーよりも3倍大きいL3キャッシュ(CPUあたり最大1,152MBのL3キャッシュ)を提供します。 AMD 3D V-Cache テクノロジーを搭載した AMD EPYC™ 9004 プロセッサーは、汎用第4世代 AMD EPYC™ プロセッサーと同じ優れた設計を活用し、 AMD 3D V-Cache テクノロジーを追加して、追加のSRAMをコンピュート・ダイの上に直接スタックすることで、総L3キャッシュ・サイズを3倍に拡大します。これほど大きなキャッシュは、かなり大きな作業データセットを保存することができます。そのデータをコアの近くに配置することで、メモリ帯域幅の圧迫を緩和し、多くの技術計算ワークロードを大幅に高速化することができます。
AMD 3D V-Cache テクノロジーを搭載した AMD EPYC™ 9004 プロセッサーには、5nmプロセス・テクノロジーで構築された「Zen 4」コア、最大4800GHzのメモリ速度をサポートする12チャネルのDDR5メモリなど、汎用第4世代 AMD EPYC™ プロセッサーに見られる最先端テクノロジーが搭載されています、 最大128(1P)または160(2P)レーンのPCIe® Gen5(PCIe Gen4の2倍の転送速度を実現)、第3世代Infinityファブリック(第2世代Infinityファブリックの2倍のデータ転送速度を実現)、使用中のデータを保護する AMD Infinity Guard テクノロジーなどがそれにあたります。これらの新しいプロセッサーは、既存の第4世代 AMD EPYC™ プラットフォームとソケットの互換性があるので、安心してください。
AMD EPYC™ 9004 シリーズ・プロセッサーが獲得した300を超える世界記録は、AMDが業界をリードするエネルギー効率[2]と最適なTCO[3]を備えたパフォーマンス・リーダーシップを絶え間なく追求してきた証です。業界はこうした努力に応えてきました: AMD EPYC™ プロセッサーが提供する最先端の機能とテクノロジーを活用したフルスタック・ソリューションとパートナーシップの豊かで成長するエコシステムにより、お客様の現在および将来のニーズに対する価値実現までの時間を短縮することができます。
AMD EPYC™ プロセッサーが提供する最先端の機能とテクノロジーを活用することで、以下のお客様の現在のニーズと将来のニーズに対して、より迅速な価値実現を可能にすることができています:Alibaba Cloud, Altair, AlmaLinux, Amazon Web Services, Anjuna, Ansys, ASRock, Asus, Atos, BEAMR, Broadcom, Cadence, Canonical, Casa Systems, Cisco, Citrix, Cloudera, Couchbase, Dassault Systèmes, Datastax, Dell, Elastic, Equinix, ESI, Excelero, Foxconn, FreeBSD, Gigabyte, Google Cloud, HBC, HPE, IBM Cloud, Inventec, JMA, Juniper, Kioxia, Lenovo, MariaDB, Mavenir, SingleStore, Micron, Microsoft, Mitac, Neural Magic, MongoDB, MSI, MySQL, NetScout, Nokia, Nutanix, Oracle, PGS Software, QCT, Quobyte, Radisys, Red Hat, RedisLabs, Robin, Rocky Linux, Samsung, Shearwater, Siemens Digital Industries Software, SK Hynix, SLB, Splunk, StorMagic, Supermicro, SUSE, Synopsis, Tencent Cloud, TigerGraph, Transwarp, Tyan, Velocix, Vertica, WEKA, VMware, Western Digital, Wiwynn, Wistronと、そのほかの企業。
AMDはパートナーと緊密に協力し、あらゆる機会をとらえて、大容量L3キャッシュを活用できる多くの技術コンピューティング・ワークロードのパフォーマンスを調査・調整し、AMD 3D V-Cache テクノロジーを搭載した AMD EPYC™ 9004 プロセッサーの画期的なパフォーマンスを実証しています。これらのパフォーマンス結果の一部を見てみましょう。
数値流体力学(CFD)
CFDは、数値解析を使用して、流体の流れや、流体(液体または気体)が固体や表面とどのように相互作用するかをシミュレートおよび解析します。たとえば、ボートの船体周りの水の流れや、自動車のボディや航空機の胴体の空気力学のほか、工業処理や消費者向けパッケージ製品など、あまり目立たない用途にも幅広く使用されています。これらのワークロードは計算集約的で、かなりのリソースを必要としますが、ほとんどのCFDワークロードはメモリ帯域幅によって制限されています。
AMD 3D V-Cacheテクノロジーを搭載した AMD EPYC™ 9004 プロセッサーは、CFDワークロードのパフォーマンスを大幅に向上させることができます。最大1,152MBのL3キャッシュにより、ワークロードの全作業データセットの多くを、コンピュートコアに近接した超高速L3キャッシュメモリに収めることができます。
AMD 3D V-Cache テクノロジーを搭載した AMD EPYC™ 9004 プロセッサーは、CFDシミュレーションのスケーラビリティも大幅に向上させることができます。これらのワークロードは並列化することで、計算負荷を複数のコアと複数のコンピュート・ノードに分散できるため、非常に大規模なノード数まで効率的にスケールアウトできます。CFDコードは、最小限の共有メモリで実行ノードに作業データセットを分散させることにより、効率的にスケールアウトすることができます。そのため、計算ノードを追加するたびに、ノード間の共有メモリ維持のオーバーヘッドに大きな負担をかけることなく、計算能力(コア、帯域幅など)が向上します。したがって、各プロセッサーは、ワークロード全体で利用可能なL3キャッシュの総量を増やすことになりました。ワークロード全体の多くをキャッシュに収めることで、ジョブを大幅に高速化し、超線形スケーリングを実現できます。
Altair® AcuSolve®: Altair AcuSolveは、従来のCFDアプリケーションに付随する困難さを伴うことなく、あらゆる種類の流れ、伝熱、乱流、非ニュートン材料の解析機能を適用して設計を探求したいと考えている企業にとって、実績のある資産です。2ソケットの AMD EPYC™ 9684X システムは、衝突ノズルのテストケースにおいて、同等の2ソケットのIntel Xeon Platinum 8480+システムを約1.94倍上回りました[5]。
コアあたりでは、2ソケット32コアの AMD EPYC™ 9384X システムは、同等の2ソケット32コアのIntel Xeon Platinum 8462Y+システムを約1.63倍上回りました[5]。
Ansys® CFX®: ANSYS CFXは、高性能な数値流体力学(CFD)ソフトウェアツールであり、CFDおよびマルチフィジックスの幅広い用途において、ロバストで信頼性の高い高精度なソリューションを迅速に提供します。2ソケットの AMD EPYC™ 9684X システムは、標準的なCFXベンチマークにおいて、同等の2ソケットIntel Xeon Platinum 8480+システムを最大2.59倍上回りました[6]。
コアあたりでは2ソケット32コアの AMD EPYC™ 9384X が、同じベンチマークで2ソケット32コアの Intel Xeon Platinum 8462Y+ システムを最大 2.03 倍上回りました[6]。
Ansys® Fluent®: Ansys® Fluent®は、高度な物理モデリング機能と業界最高レベルの精度を提供する流体シミュレーションアプリケーションです。2ソケットの AMD EPYC™ 9684X システムは、15種類の標準ベンチマークの合成平均値で、同等2ソケットIntel Xeon Platinum 8480+システムを約2.15倍上回りました[7]。
コアあたりで見ると、2ソケット32コアの AMD EPYC™ 9384X は、同じベンチマークで2ソケット32コアの Intel Xeon Platinum 8462Y+ システムを ~1.35 倍上回りました[7]。
OpenFOAM®: OpenFOAM® は、フリーのオープンソース CFD ソフトウェアであり、そのユーザーベースには、商業組織と学術組織が含まれます。また、2 ソケット AMD EPYC™ 9684X システムは、130x52x52,108x46x46, 100x40x40 のサイズの標準的なバイクモデルの平均で、同等の 2 ソケット Intel® Xeon® Platinum 8480+ システムを ~2.08 倍上回りました[8]。
コアあたりで見ると、2ソケット32コアの AMD EPYC™ 9384X は、同じベンチマークで同等の2ソケット32コアのIntel Xeon Platinum 8462Y+を~1.77倍上回りました[8]。
陽解法有限要素解析(FEA)
陽解法有限要素解析(FEA)は、衝撃、爆発、衝突シミュレーションなどの動的な事象を受ける構造や材料の挙動を解析するために使用される数値シミュレーション技術です。例えば、自動車業界では、FEAを使用して車両設計を解析し、衝突時の車の挙動と、その衝突が車の乗員に与える影響の両方を予測しています。また、携帯電話メーカーが、携帯電話の耐久性を確保するために落下試験をシミュレーションすることも一つの例です。シミュレーションを使用することで、メーカーは仮想設計をテストし、完全なプロトタイプを実験的にテストする必要性を減らすことで、時間と費用を節約することができます。
このようなシミュレーションは、試験対象となる装置(自動車や携帯電話など)の非常に複雑なデジタルモデルから始まり、一定の時間にわたって一連の微分方程式を解くことにより、動的な事象(衝撃など)の物理をシミュレートします。モデルの一部分に応力やひずみがかかるたびに、モデルの他の部分に熱、動き、トルクなどが発生し、モデルが変形したり破損したりする可能性のある部分を探します。このような計算には、コンピュート・ノードの高いレベルの計算とメモリ帯域幅が必要になることがあります。さらに、モデルのある部分に影響が及ぶと、モデルの離れた部分にも変化が生じる可能性があるため、計算ノード間で、割り当てられたモデルの各部分が互いにどのような影響を受けているか、あるいはどのような影響を及ぼしているかについて情報を共有する必要があります。
Altair® Radioss™: Altair Radiossは、衝撃または衝突条件下での構造解析の実行に使用されます。そのベンチマークは、典型的な使用状況を表すように選択されたベンチマーク問題セットを使用して測定されたハードウェア性能データを提供します。2ソケットの AMD EPYC™ 9684X システムは、同等の2ソケットIntel Xeon Platinum 8480+システムを~2.10倍上回りました[9]。
また、2ソケット32コアの AMD EPYC™ 9384X システムは、同じベンチマークで2ソケット32コアのIntel Xeon Platinum 8462Y+システムを約1.37倍上回りました[9]。
Ansys® LS-DYNA®: Ansys® LS-DYNA®は、広く使用されている陽解法シミュレーションプログラムです。自動車、航空宇宙、建設、軍事、製造、生体工学などの業界で、複雑な実環境の短時間事象をシミュレートすることができます。2ソケットの AMD EPYC™ 9684X システムは、標準的な3carsベンチマークで2ソケットのIntel Xeon Platinum 8480+を最大2.86倍上回り、他の3つの標準ベンチマークでも堅実な性能向上を示しました[10]。
コアあたりで見ると、2ソケット32コアの AMD EPYC™ 9384X システムは、3car ベンチマークで 2 ソケット 32 コアの Intel Xeon Platinum 8462Y+ を最大 1.89 倍上回り、他の 3 つの標準ベンチマークでも大幅に高い性能を示しました[10]。
以上のように、 AMD 3D V-Cache テクノロジーを搭載した AMD EPYC™ 9004 プロセッサーが技術計算のワークロードにもたらすパフォーマンスのインパクトは印象的です。解決までの時間を最小限に抑えたい場合、コア数が最も多いプロセッサーを使用することで、コンピュート・ノード1つあたりのパフォーマンスが非常に高くなります。これらのワークロードはすべて非常に複雑で、非常に困難な問題を解決するものです。さらに、ソフトウェアのライセンスコストは、特にソフトウェアがコア単位でライセンスされることが多いため、高額になる可能性があります。コア当たりのソフトウェア・ライセンスの価値を最大化したい方は、コア当たりとノード当たりのパフォーマンスが非常に高いバランスを実現する AMD 3D V-Cache テクノロジーを搭載したミッドコアカウントの AMD EPYC™ 9004 プロセッサーをご検討ください。
第4世代 AMD EPYC™ プロセッサーは、今日の最も困難なワークロードに取り組むために必要なパフォーマンスと効率性を提供します。 AMD 3D V-Cache テクノロジーを搭載した第4世代 AMD EPYC™ プロセッサーの登場により、 AMD 3D V-Cache テクノロジーの実証済みのパフォーマンスが第4世代 AMD EPYC™ プロセッサーにもたらされ、多くのメモリ帯域幅に制約のあるワークロードに卓越したパフォーマンスを提供します。
超線形スケーリング
AMD 3D V-Cache テクノロジーを搭載した AMD EPYC™ 9004 シリーズ・プロセッサーのシングルノード性能の優位性は、マルチノードのテクニカル・コンピューティングの現実的なワークロードに対してこれらのプロセッサーを導入した場合に、さらに顕著になります。テクニカル・コンピューティング・クラスターに計算ノードを増やすと、各ノードが処理するデータセットの部分が減少します。十分な削減により、データセットの各部分が各計算ノードのL3キャッシュ内に完全に収まるようになり、スーパー・ライナー・スケーリングと呼ばれる急激な性能向上が起こります[4]。この動作はプロセッサーでは珍しいことではありませんが、 AMD 3D V-Cache テクノロジーを搭載した AMD EPYC™ 9004 シリーズ・プロセッサーのL3キャッシュのサイズは業界をリードする1152MB(標準的な AMD EPYC™ 9004 シリーズのL3キャッシュの384MBの3倍)で、スーパー・ライナー・スケーリングを含む優れたスケーラビリティを示しています。
例えば、AMDのテストでは、130x52x52メッシュのOpenFOAM Motorbikeモデルが、2ノードで~2.50倍の超線形スケーリングを示しました。この高速化は、4ノードで~6.40倍、8ノードで~13.55倍に拡大しました。ノードを追加するほどスケーラビリティが加速することは、超線形スケーリング効果を実証しています[8]。
結論
AMDは、パートナーの技術の向上に確実に寄与しています。私たちは、パートナーがサービスを提供するさまざまな市場セグメントや業種の進化に対応する必要性を理解しています。当社は、卓越したパフォーマンスと効率性を実現する製品の革新を続けています。AMD 3D V-Cacheテクノロジーを搭載した AMD EPYC™ 9004 プロセッサーの登場は、世界最高峰のデータセンター・プロセッサーを提供し続けるという当社の継続的な探求における新たなマイルストーンです。
AMDは、お客様の環境に第4世代 AMD EPYC™ プロセッサーを導入する際に、これらの主要なワークロードで最適なパフォーマンスを達成するための最適なCPUチューニング方法に関するガイダンスを提供しています。詳細については、 AMD EPYC™ サーバー・プロセッサーをご覧ください。
2022年11月に発表された第4世代 AMD EPYC™ プロセッサーは、ワークロード全体で最適なTCOを実現する世界最高性能のサーバー・プロセッサーであり、業界をリードするx86のエネルギー効率[2][3]で持続可能性の目標をサポートし、豊富なソリューションのエコシステムでコンフィデンシャル・コンピューティングを実現します。 AMD EPYC™ 97×4 プロセッサーおよび AMD 3D V-Cache™ テクノロジー搭載 AMD EPYC™ 9004 プロセッサーの登場により、第4世代 AMD EPYC™ プロセッサーのラインアップは、それぞれクラウド・インフラストラクチャーおよびメモリ・バウンド・ワークロード向けに最適化された新しいプロセッサー・モデルによって拡充されます。
その他の主なAMDテクノロジーは以下のとおりです:
・AMD Instinct™アクセラレーターは、科学者が最も差し迫った課題に取り組めるよう、エクサスケールでの発見を後押しするよう設計されています。
・AMD Pensando™ソリューションは、高度にプログラマブルなソフトウェア定義のクラウド、コンピュート、ネットワーキング、ストレージ、およびセキュリティ機能を、データがどこにあっても提供します。
・AMD FPGAおよびアダプティブSoCは、柔軟性と適応性に優れたFPGA、ハードウェア・アダプティブSoC、アダプティブ・コンピュート・アクセラレーション・プラットフォーム(ACAP)プロセッシング・プラットフォームを提供し、エンドポイントからエッジ、クラウドまで、さまざまなテクノロジーで迅速なイノベーションを実現します。
Raghu Nambiarは、AMDのデータセンター・エコシステム&ソリューション担当コーポレート・バイスプレジデントです。彼の投稿は彼自身の意見であり、AMDの立場、戦略、意見を代表するものではありません。第三者のサイトへのリンクは便宜上提供されているものであり、明示的に記載されていない限り、AMDはリンク先のサイトのコンテンツについて責任を負わず、保証を意味するものではありません。
こちらの記事はAMD本社のブログ記事を機械翻訳したものです。詳しくは元記事をご覧ください。
脚注:
- AMDが定義する「技術計算」または「技術計算ワークロード」には、電子設計自動化、計算流体力学、有限要素解析、地震トモグラフィ、気象予測、量子力学、気候研究、分子モデリング、または同様のワークロードが含まれる。GD-204
- SP5-072: 2023年1月11日現在、第4世代EPYC 9654搭載サーバーは、業界が認める主要なエネルギー効率ベンチマークSPECpower_ssj®2008、SPECrate®2017_int_energy_base、およびSPECrate®2017_fp_energy_baseにおいて最高の総合スコアを記録しています。詳細はhttps://www.amd.com/en/claims/epyc4#SP5-072。
- SPCTCO-002A:2PのAMD EPYC 96コア9654 CPU搭載サーバーで、10,000ユニットの整数性能を実現するには、推定で以下の時間がかかります: 40コアのIntel Xeon Platinum 8380 CPUを搭載した2Pサーバーに比べ、サーバー数は59%少なく(AMDサーバー7台対Intelサーバー17台)、消費電力は46%少なく、3年間のTCOは48%低くなります。また、2P EPYC 96コアCPUソリューションは、3年間で米国で燃焼されなかった石炭145,443ポンドに相当する温室効果ガス排出量の削減と、米国で年間53エーカーの森林に相当する炭素固定を実現すると推定されています。
- つまり、2ノードにスケールアウトすると1ノードの2倍の性能になり、4ノードにスケールアウトすると1ノードの4倍の性能になるといった具合です。「スーパーリニア」スケーリングとは、1つまたは複数のノードを追加することによって達成される性能向上が、線形よりも大きい場合を指します。AMDは、リニアまたはスーパー・リニア・スケーリングを主張する場合、±2%の誤差を許容しています。GD-2055。
- https://www.amd.com/system/files/documents/amd-epyc-9004x-pb-altair-acusolve.pdf.
- https://www.amd.com/system/files/documents/amd-epyc-9004x-pb-ansys-cfx.pdf
- https://www.amd.com/system/files/documents/amd-epyc-9004x-pb-ansys-fluent.pdf
- https://www.amd.com/system/files/documents/amd-epyc-9004x-pb-openfoam.pdf
- https://www.amd.com/system/files/documents/amd-epyc-9004x-pb-altair-radioss.pdf
- https://www.amd.com/system/files/documents/amd-epyc-9004x-pb-ansys-ls-dyna.pdf