AMD EPYC™ 7003シリーズ・プロセッサーが実現する卓越したテクニカル・コンピューティング・パフォーマンス

2022-06-24更新

  • twitter
  • facebook
  • line

本記事は、Raghu Nambiar氏による、第3世代 AMD EPYC™ シリーズ・プロセッサーと、クラウドとデータセンターの両方におけるテクニカルコンピューティング(1)ワークロードの大幅な性能向上に関するものです。また、AMD 3D V-Cache™ テクノロジーを搭載した最新のAMD EPYC 7003シリーズ・プロセッサーについて説明し、標準の第3世代AMD EPYCプロセッサーと比較して、L3キャッシュの量がCPUあたり最大256MBから768MB、コアあたり32MBから最大96MBと、3倍になることで実現した新しい性能に焦点を当てます。

技術的なワークロードにおける性能の向上は、以下のような現実的な利点につながります。
・一定時間内でより多くの作業をこなし、生産性を向上させる。
・一定時間内に多くの作業を実行することで精度を向上させる。
・使用するクラウドインスタンスの数を減らし、使用コストを削減することができる。
・サーバーの購入台数と保守台数を削減できるため、生産性を維持したまま初期費用と継続費用を削減できる。

クラウドで技術計算のパフォーマンスと柔軟性を最大化する

多くの企業は、パブリック・クラウド上で作業することを選択しています。パブリック・クラウドは、迅速なパフォーマンスと従量制の価格設定により、オンプレミスのデータセンターを構築して維持する必要がなくなるためです。また、パブリック・クラウドは、最も必要とされるときに、パフォーマンスを拡大できます。第3世代 AMD EPYC™ プロセッサーは、 Google C2D を含む複数のクラウドプロバイダーとインスタンスタイプにおいて、確かなパフォーマンスの向上を実現します。図1は、 Google Cloud C2D と従来のN2Dインスタンスの相対的なパフォーマンスを示しています。以下に示すパフォーマンスアップを含む詳細については、 Introducing Compute Optimized VMs Powered by AMD EPYC Processors をご覧ください。

図1:Google CloudインスタンスにおけるAMD EPYC™ 世代のパフォーマンスアップリフトを抜粋(2)

Amazonのテストによると、 Amazon EC2 Hpc6a インスタンスは、 Siemens® Simcenter Computational Fluid Dynamics(CFD) アプリケーションを使用して、c5nインスタンスと比較して確実なスケーリングとコストのアップリフトを示しました。これらのテスト結果は、Hpc6aインスタンスが、c5nインスタンスと比較して、最大400ノードまで、ほぼ線形なスケールアウト性能、さらにはわずかな超線形スケール(3)の実現、約70%のコスト削減が可能なこと(4)を示しています。 Microsoft® Azure® HBv3 インスタンスは、第3世代 AMD EPYC™ プロセッサーとAMD 3D V-Cache™ テクノロジーを搭載しています。

 

パフォーマンスの向上は、生産性の向上、設計の改善、インスタンス数の削減によるコスト削減につながることを忘れないでください。クラウドサービスプロバイダーが提供する柔軟性により、長期的な目標を犠牲にすることなく、当面のニーズに合わせてインスタンスの数と種類をリアルタイムで調整することができます。第3世代 AMD EPYC™ プロセッサーの優れた性能により、IT予算を最大限に活用することができます。

データセンターのテクニカルコンピューティングへの投資を最大限に活用する

第3世代 AMD EPYC™ プロセッサーは、さまざまなテクニカル・コンピューティング・ワークロードで威力を発揮します。図2、3、4は、有限要素解析(FEA)やCFDアプリケーションを含む特定のテクニカル・コンピューティング・ワークロードにおいて、32コアの AMD EPYC™ 7543 および75F3プロセッサーが競合他社を上回る性能を発揮していることを示しています。比較したプロセッサーはすべて 32 コアを搭載しているため、これらの比較は単純な性能の比較になります(5)。

図2:Altair® Radioss®データセンターでの性能向上の例(6)

図 3:Ansys® LS-DYNA® データセンターのパフォーマンス上昇の例(7)

図 4:Ansys® CFX® のパフォーマンスアップリフトの例(8)

各ワークロードの詳細については、以下のテクニカル・ブリーフをご参照ください。

Altair® Radioss® (FEA)
Ansys® LS-DYNA® (FEA)
Ansys CFX® (CFD)

また、 Emerson® Echos™ などの主要な地震学的石油・ガス探査アプリケーションのパートナーであることも誇りにしています。地震エネルギー探査では、地中にパルス(ショットと呼ばれる)を発射し、その戻りパルスを捕捉し、処理します。

第3世代 AMD EPYC™ プロセッサーが提供する大幅な(多くの場合、世界記録となる)性能向上は、データセンターが固定および有限のハードウェアリソースと、そのハードウェアの導入と維持に必要なサポートインフラ(スペース、電力、アクセス制御、冷却、障害復旧など)に対する相当な投資を意味するため、重要です。クラウドの導入とは異なり、データセンターは簡単に拡張・縮小できないため、これらのハードウェアの価値を最大限に引き出すには、現在および将来のニーズを正確に計画する必要があります。第3世代 AMD EPYC™ プロセッサーは、幅広いコア数と周波数で提供されており、パフォーマンスとライセンスの両方の観点から、データセンター・インフラストラクチャをワークロードに最適化するのに役立ちます。

L3キャッシュの超大容量化でパフォーマンスを向上

AMD 3D V-Cache™ ダイ・スタッキング・テクノロジーは、第3世代 AMD EPYC™ プロセッサーが第2世代 AMD EPYC™ プロセッサーや競合製品と比較して提供する技術計算性能の向上をさらに促進することができます。これは、メモリ帯域幅に制約のあるワークロードに特に当てはまります。

AMD 3D V-Cache™ は、標準的な第3世代 AMD EPYC™ プロセッサーが提供するキャッシュ量を実質的に3倍に増やします。 メモリ集約型のアプリケーションにこれだけのキャッシュを提供すれば、キャッシュのヒット/ミス比率が大幅に向上し、より多くのワーキングメモリを低速のメインメモリに落ち込ませるのではなく、キャッシュに直接適合させることが可能になります。 AMD 3D V-Cache™ を第3世代 EPYC™ プロセッサーのコアおよびメモリの利点と組み合わせることで、多くの技術計算アプリケーションの性能を大幅に向上させることができます。

クラウドにおけるAMD 3D-Cacheの活用

AMD 3D V-Cache™ テクノロジーは、すでにクラウドでその価値を証明しています。Microsoft Azure は最近、 AMD 3D V-Cache™ テクノロジーを搭載した第3世代 AMD EPYC™ プロセッサーを搭載したHBv3インスタンスを発表しました。これらの新しいインスタンスは、 AMD 3D V-Cache™ テクノロジーを搭載しない第3世代 AMD EPYC™ プロセッサーを搭載した以前のHBv3インスタンスや、第2世代 AMD EPYC™ プロセッサーを搭載したHBv2インスタンスよりも大幅に高い性能を提供することができます。

図 5、6、7、8 は、CFD と天気予報の両方のアプリケーションを実行するこれらのインスタンスの 64 ノード スケーリング性能の相対値を示しています。

図 5:Microsoft Azure インスタンスの Converge CFD™ パフォーマンスの相対比較(9)

図 6:Microsoft Azure インスタンスにおける Ansys® Fluent® の相対的なパフォーマンス(10)

図7: Microsoft AzureインスタンスのSimcenter STAR-CCM+™の相対的なパフォーマンス(11)

図8: Microsoft AzureインスタンスのWRF®相対性能(12)

各ワークロードの詳細については、以下のテクニカル・ブリーフをご参照ください。

Converge™ CFD (CFD)
Ansys® Fluent® (CFD)
Simcenter STAR-CCM+™ (CFD)。
WRF® (天気予報)

これらの概要には,さまざまなノード数でのスケーリング性能の結果も含まれています.

すべてのケースで、 AMD 3D V-Cache™  テクノロジー搭載の HBv3 インスタンスは、超リニアなスケーリングを実現し、複数のインスタンスに相当するコンピューティングパワーを追加で提供します。たとえば、 AMD 3D V-Cache™ テクノロジーを搭載していないHBv3インスタンスの超線形スケーリング性能は、 Ansys Fluent を64ノードに拡張した場合、11ノード分のコンピューティングパワーを追加で提供することができます。 しかし、同じワークロードを AMD 3D V-Cache™ テクノロジーを実行するHBv3インスタンスで同じノード数にスケールアップすると、64ノードのコンピュートで127ノードという驚くべきパフォーマンスが実現されます。

ここでもまた、パフォーマンスの向上が、上記で説明した実際のメリットにつながるのです。AMD 3D V-Cache™ テクノロジーを搭載したインスタンスは、クラウドの柔軟性と拡張性のすべてを提供し、より少ないインスタンスで運用できるため、限られたIT予算を最大限に活用することができます。

データセンターにおける AMD 3D V-Cache™ の活用

AMD 3D V-Cache™ テクノロジーは、データセンターでも優れたパフォーマンス向上を実現します。図9、10、11に、 AMD 3D V-Cache™ テクノロジーを搭載した第3世代 AMD EPYC™ プロセッサー(7373X(16コア)、7473X(24コア)、7573X(32コア)、7773X(64コア)を使用したシングルノード、デュアルソケットシステムをいくつか紹介します。

 

すべての比較において、 AMD EPYC™ プロセッサーは、複数のCFDアプリケーションと天気予報において、32コアの インテル® Xeon® Platinum 8362 プロセッサーを搭載したデュアルソケットシステムを上回る性能を発揮しています。 AMD EPYC™ プロセッサーは、より少ないコア数で競合他社を上回るパフォーマンスを発揮する可能性もあります。たとえば,16 コア  AMD EPYC™ 7373X  プロセッサーを 2 基搭載したシステムのコアは, Intel Xeon Platinum システムの半分しかありませんが,ANSYS CFX の実行性能は約 25% 高くなります。

図 9:Altair® AcuSolve® のシングルノード AMD 3D V-Cache™ のパフォーマンス向上の例(13)

図 10:Ansys® Fluent® のシングルノード AMD 3D V-Cache™ の性能向上の例(14)

図 11:Ansys® CFX® のシングルノード AMD 3D V-Cache の性能向上の例(15)

これらのワークロードの詳細については,以下のテクニカルブリーフをご覧ください。

Altair® AcuSolve® (CFD)
Ansys® Fluent® (CFD)
Ansys® CFX® (CFD)

シングルノードの性能は、AMD 3D V-Cacheの魅力のほんの一部に過ぎません。複数のコンピュート・ノードを追加すると、各ノードで実行される処理量が減り、ある時点で、データセットの各部分が各ノードのL3キャッシュ内に完全に収まるようになります。その結果、性能が向上し、強力な超線形スケーリング効果を達成することができます。図12、13、14は、8ノードクラスタ上でAMD 3D V-Cacheテクノロジーを搭載した第3世代AMD EPYCプロセッサが達成した超リニアスケーリングの例を、標準の第3世代AMD EPYCプロセッサのスケーリングと、単純なリニアスケーリングとの比較で示したものです。

図12:Altair® AcuSolve® AMD 3D V-Cacheの超リニアスケーリングによる性能向上の例(16)

図 13:Ansys® Fluent® AMD 3D V-Cache のスーパーリニアスケーリングによる性能向上の例(17)

図 14:OpenFOAM® AMD 3D V-Cache のスーパーリニア・スケーリング・パフォーマンスの向上例(18)

これらの各ワークロードの詳細については,以下のテクニカルブリーフを参照してください。

Altair AcuSolve(CFD)
Ansys Fluent(CFD)
OpenFOAM® (CFD)

AMD 3D V-Cache™ テクノロジーを最大限に活用するには、プロセッサーのキャッシュに格納されるデータセット全体の割合が高くなるように十分な数のノードを拡張する必要がありますが、パフォーマンスの向上により、購入するサーバーの数を減らすことができるため、大幅なコスト削減につながる可能性があります。

ハードウェアの先にあるもの

優れたハードウェアは、単なる始まりに過ぎません。AMD は、AMD Optimizing C/C++ and Fortran Compilers (AOCC) プロダクションコンパイラと AMD Optimizing CPU Libraries (AOCL) 数値ライブラリの両方を提供できることも誇りにしています。これらのソフトウェア・スタックにより、開発者は AMD EPYC™ プロセッサーの性能をさらに活用することができ、すでに気象、地球科学、ライフサイエンス、金融、製造、CFDなどのさまざまなオープンソースHPCアプリケーションの垂直統合が行われています。また、導入しやすいように、ベストパフォーマンスのSpackレシピが含まれています。AOCLは、 Ansys® Mechanical、Mathworks® 、および Comsol® に統合されています。独立系ソフトウェアベンダー(ISV)とオープンソースアプリケーションの両方への追加統合も進行中です。

第3世代 AMD EPYC™ プロセッサーを選択する理由

AMD EPYC™ プロセッサーと AMD Instinct™ アクセラレーターを搭載したFrontierスーパーコンピューターは、2022年6月1日のTop500リストによると、現在世界で最も高速なコンピューターです。Frontierは2022年後半に本稼働し、世界最大の科学的課題の解決に着手する予定です。クラウドやデータセンターにおけるよりシンプルな課題でも、 AMD EPYC™ の性能は実世界でのメリットにつながり、お客様のニーズに最も適したメリットの組み合わせを柔軟に決定することができます。

AMD EPYC™ プロセッサーが提供する驚異的なパフォーマンスの恩恵を受けるワークロードの数は、 AMD 3D V-Cache™ テクノロジー搭載のものと非搭載のものがあります。第3世代 AMD EPYC™ プロセッサーが、現在および将来のビジネス・ニーズの達成にどのように役立つかを詳しく知るには、拡大し続けるAMDおよびサードパーティーのパフォーマンス・ブリーフ、ソリューション・ブリーフ、その他の技術文書を読むことをお勧めします。

Raghu Nambiarは、AMDのデータセンター・エコシステムおよびソリューション担当コーポレート・バイス・プレジデントです。彼の投稿は、彼個人の意見であり、AMDの立場、戦略、意見を代表するものではありません。第三者のサイトへのリンクは便宜上提供されているものであり、明示的に記載されていない限り、AMDはリンク先のサイトのコンテンツに責任を負わず、いかなる推奨も示唆されません。

こちらの記事はAMD本社のブログ記事を機械翻訳したものです。詳しくは元記事をご覧ください。

脚注:

(1)AMD が定義する「テクニカルコンピューティング」または「テクニカルコンピューティングワークロード」には、電子設計自動化、計算流体力学、有限要素解析、地震トモグラフィ、天気予報、量子力学、気候研究、分子モデリング、または同様のワークロードが含まれる場合があります。GD-204

(2)https://cloud.google.com/blog/products/compute/introducing-compute-optimized-vms-on-amd-epyc-milan を参照してください。

(3)つまり、2 ノードにスケールアウトするとシングル・ノードの 2 倍の性能になり、4 ノードにスケールアウトするとシングル・ノードの 4 倍の性能になるというように、アプリケーションの性能が等しく比例して向上することを「リニア・スケーリング」と定義しています。「超線形」スケーリングとは、1つまたは複数のノードを追加することで得られる性能向上が線形より大きい場合を指します。AMDは、リニアまたはスーパーリニアスケーリングを主張する場合、±2%の誤差を許容している。GD-205

 

(4)https://aws.amazon.com/blogs/aws/new-amazon-ec2-hpc6a-instance-optimized-for-high-performance-comput をご覧ください。

(5)これらの3つのテストはすべて、AMD 3D V-Cacheテクノロジーを搭載した64コアAMD EPYC 7773Xプロセッサーの8ノード超リニアスケーリング性能を、標準的な64コアAMD EPYC 7763プロセッサーと比較したもので、シングルノード性能が常に1.00x、8ノードリニアスケーリング性能が常に8.00xとなるように設定されています。追加計算ノード数は、丸められたAMD EPYC 7773Xと丸められたAMD EPYC 7763の両方の性能から8.00倍のリニアスケーリング性能アップリフトを差し引き、さらにAND EPYC 7773Xの性能からAMD EPYC 7763の性能を差し引くことで算出されています。

(6)https://www.amd.com/system/files/documents/amd-epyc-7003-pb-altair-radioss-icelake-performance-comparison.pdf 図2をご参照ください。

(7)https://www.amd.com/system/files/documents/amd-epyc-7003-pb-ansys-lsdyna-icelake.pdf 図2をご参照ください。

(8)https://www.amd.com/system/files/documents/amd-epyc-7003-sb-ansys-cfx-icelake.pdf 図2をご参照ください。

(9)https://www.amd.com/system/files/documents/amd-epyc-7003-3d-vcache-pb-azure-hbv3-converge-cfd.pdf の図2をご覧ください。

(10)https://www.amd.com/system/files/documents/amd-epyc-7003-3d-vcache-pb-azure-hbv3-ansys-fluent.pdf 図2をご覧ください。

(11)https://www.amd.com/system/files/documents/amd-epyc-7003-3d-vcache-pb-azure-hbv3-siemens-star-ccm.pdf 図2をご覧ください。

(12)https://www.amd.com/system/files/documents/amd-epyc-7003-3d-vcache-pb-azure-hbv3-wrf.pdf 図1をご覧ください。

(13)https://www.amd.com/system/files/documents/amd-epyc-7003-3d-vcache-pb-altair-acusolve.pdf 図3をご覧ください。

(14)https://www.amd.com/system/files/documents/amd-epyc-7003-3d-vcache-pb-ansys-fluent.pdf図3をご覧ください。

(15)https://www.amd.com/system/files/documents/amd-epyc-7003-3d-vcache-pb-ansys-cfx.pdf 図3をご覧ください。

(16)Altair AcuSolve。インピンジングノズルベンチマークを実行して、~14.9倍(AMD 3D V-Cacheテクノロジー使用)および~10.8倍(標準)。https://www.amd.com/system/files/documents/amd-epyc-7003-3d-vcache-pb-altair-acusolve.pdf 図4を参照。

(17)Ansys Fluent。Ansys Fluent:Exhaust_system_33m,Combustor_71m,Landing_gear_15m および aircraft_14m の各ベンチマークで,平均 ~10.9 倍(AMD 3D V-Cache テクノロジーを使用), ~8.9 倍(標準).https://www.amd.com/system/files/documents/amd-epyc-7003-3d-vcache-pb-ansys-fluent.pdf; 図4と図5を参照してください。

(18)OpenFOAM:ofoam-1084646 ベンチマークで ~20.0(AMD 3D V-Cache テクノロジー使用)および ~11.7(標準).https://www.amd.com/system/files/documents/amd-epyc-7003-3d-vcache-pb-openfoam.pdf 図5を参照。

一覧に戻る