競争力のあるパフォーマンス・クレーム: 業界標準に基づくアプローチ

2023-09-12更新

  • twitter
  • facebook
  • line

AMDは、業界標準のベンチマーク、すなわち、専門家による完全に透明性が確保された査読を受けているか、または独立監査機関により監査されても、検証可能で、結果を再現するための完全な開示レポートに取り組んでいます。私たちは、お客様に関連する重要なワークロード分野の多様なセットにわたって、300を超える世界記録を誇っています。

最近、インテルは、いくつかのワークロードについて、インテル Xeon 8462Y+ CPUとAMD EPYC™ 9354 CPUの性能を比較した一連のベンチマークを発表しました。しかし、この発表では、使用された方法論に関していくつかの疑問が投げかけられています。なぜ、Xeon構成では AMD EPYC™ 構成に比べて新しいバージョンのオペレーティング・システム(ほとんどの場合、性能が向上している)が使用されたのか? 高性能のXeonプロセッサー8462Y+が、メインストリームのAMD EPYC™ 9354プロセッサーに対して使用されたのはなぜか? 多くのワークロードで一貫して優れた性能を発揮しているAMD EPYC™ 9374Fが「比較可能な」プロセッサーだったはずです。最後に、検証可能な業界ベンチマークが限られており、透明性のない非業界標準ベンチマークを使用したのはなぜなのでしょうか。もっと透明性を高めなければいけません。そもそもこの時使用されていた AMD EPYC™ システムが、公表されている AMD EPYC™ チューニングガイドで推奨されているように、最高のパフォーマンスを発揮するようにチューニングされていたかどうかは明らかではないのです。

コンソーシアムベースの標準ベンチマークのために業界パートナーが公表する結果は、さまざまなベンダーのコンピューティングシステムの性能を示す一貫した方法です。これらのベンチマークでは、ベンチマーク・キット、監査方法、審査プロセスを厳格に遵守し、システムの種類や構成に関係なく、一貫性のある公正な方法で比較する必要があります。

コンピューターの主流

ここでは、主要なユースケースの実際のパフォーマンスを評価するために業界で広く使用されている、標準的で検証可能なベンチマークの例をいくつか紹介します。このテストはすべて当社のパートナーが実施したものであることをご理解ください。結果は以下の通りです。

・SPECcpu® 2017は、プロセッサー性能を測定するための最も一般的なベンチマークであり、産業界と学界からなる委員会によって選定された、計算負荷の高いマイクロベンチマーク群から構成されています。表1は、32コアとトップ・オブ・スタックの両方でAMD EPYCプロセッサーが文句なしの性能リーダーシップを発揮していることを示しています[1]。

表1:SPECcpu® 2017の性能比較

・SPECjbb® 2015は、サーバーサイドJavaベース・アプリケーションの公正な性能測定を可能にする一般的な基準です。SPECjbb® 2015 は、販売時点情報管理(POS)要求、オンライン購入、およびデータマイニングオペレーションを混在して処理する IT インフラを有する企業をシミュレートしています。過去 20 年間における業界全体における Java の急速な普及により、このベンチマークは、Java 仮想マシン(JVM)ベンダー、ハード ウェア開発者、Java アプリケーション開発者、研究者、および学術コミュニティのメンバーなど、あらゆる対象者に関連するものとなっています。表2は、32コアとトップ・オブ・スタックの両方においてAMD EPYCの性能がトップであることを示すもう1つの例です[2]。

表2:SPECjbb® 2015の性能比較

・RDBMS:リレーショナル・データベースのベンチマークを見てみましょう。SAP-SDは、顧客がITソリューションに適したハードウェア構成を見つけるのに役立つように設計された、一般的なベンチマークです。96 コアの AMD EPYC™ 9654 プロセッサーを搭載した 2P システムでは、809,570 SAPS を記録したのに対し、Intel Xeon Platinum 8490H プロセッサーを搭載した 2P システムでは、428,730 SAPS であり、システム・レベルで約 1.88 倍の性能向上を実現しています [4]。TPC Benchmark™ E(TPC-E)は、トランザクション処理システムのベンチマークの業界標準です。Microsoft® SQL Serverを実行した際は、96コアのAMD EPYC 9654プロセッサーを搭載したシングルソケットサーバーが、60コアのIntel Xeon Platinum 8490Hプロセッサーを2基搭載した2ソケットサーバーを上回りました[5]。

・仮想化 VMware® VMmark3®は、業界をリードするエンタープライズ仮想化統合ベンチマークで、さまざまなハードウェア・ベンダー・プラットフォーム上でのVMware vSphere®ハイパーバイザーのパフォーマンスとスケーラビリティを測定します。AMDは近年、この分野を席巻しており、顧客にとって最も重要な構成である2ノード4ソケットSAN、4ノード8ソケットvSAN、および総合リーダーシップにおいて、世界記録となる仮想化パフォーマンスを確立しています。現行世代の96コア AMD EPYC™ 9654 が40.51@43タイルを達成したのに対し、トップ・オブ・スタックの60コアIntel Xeon Platinum 8490は、同様の2ノード4ソケット構成で23.38@23タイルでした。このパフォーマンス・リーダーシップは第4世代 AMD EPYC™ プロセッサーに限った話ではなく、第3世代 AMD EPYC™ 7773X プロセッサーもIntel Xeon Platinum 8490Hを上回っています[6]。

・SPECpower_ssj® 2008: SPECpower_ssj2008 ベンチマーク・スイートは、システムの消費電力と性能特性を測定します。2プロセッサーの AMD EPYC™ 9654 システムの電力効率は30,602であるのに対し、spec.orgで公表された結果に基づくと、SPECpower_ssj2008の全体的なssj_ops/watt指標を比較した場合、2プロセッサーのIntel Xeon 8490Hシステムの電力効率は16,902であり、 AMD EPYC™ ベースのサーバーのエネルギー効率は~1.81倍高くなっています。[3]

AI(人工知能)

昨今、人工知能(AI)のエコシステムは進化し続けており、ベンチマークやワークロードは常に流動的となっています。インテルのAMXのようなアクセラレーターは、ワークロードの一部の計算を補助することができます。対照的に、AMDの戦略は、最も幅広いワークロードで高性能を発揮する最高性能の汎用コアを提供することに重点を置いています。多くのAIワークロードはメモリに拘束されるため(多くのLarge Language Models(LLM)など)、AMXの恩恵を受けないか、アムダールの法則により限定的な高速化しか見られません。

アプリケーションの密度が高くなるAIサイクルは、AMD Instinct MI250やAMD Alveo V70などのアクセラレーターにオフロードされることが多い状況です。市場の継続的な進化が、当社の汎用デバイスにアクセラレーションを追加するという将来の決定を後押しするでしょう。AMDは、クライアントの7040U CPUなど、強力なIPとソフトウェアのポートフォリオを活用しています。通常、推論はワークフロー全体のごく一部であり、推論を大幅に高速化しても、全体としてはわずかな高速化しか実現できません。

代表的なAIベンチマークは、ワークフロー全体のパフォーマンスを総合的に測定します。Transaction Processing Performance CouncilのTPC Express Benchmark AI(TPCx-AI)は、データセンターとクラウドの両方における代表的なエンドツーエンドのデータAIユースケースを測定することで、業界標準となることを目指しています。このベンチマークでは、さまざまなスケーリング・ファクター(データセット・サイズ)にまたがる10種類の実世界のユースケース(顧客セグメンテーション、顧客保全の転写、販売予測、スパム検出、価格予測、ハードウェア故障、製品評価、旅行の分類、顔認識、詐欺検出)を対象としています。AMDは、スケールファクター3、10、30、100、300、1000において、リーダーとしてのパフォーマンスと価格性能を誇っています。最新の結果はtpc.orgをご覧ください。このブログが公開された時点では、公表されたインテル・サファイア・ラピッドはありません。

ハイパフォーマンス・コンピューティング

ハイパフォーマンス・コンピューティング(HPC)は、2017年に第1世代AMD EPYCプロセッサーを発表して以来、AMDの優先事項となっています。ここでもまた、AMD EPYCプロセッサーは、エンタープライズから国立研究所まで、リーダーシップを発揮するパフォーマンスを提供し続けています。 AMD EPYC™ プロセッサーは、32コアとトップ・オブ・スタックの両方で、競合他社を凌駕するパフォーマンスを提供します。AMDのエンジニアは、ハードウェアのセットアップやBIOS設定を同等にし、すべてのシステムで同じオペレーティング・システムとオプションを使用するなど、AMDと競合するすべてのシステムを最大限のパフォーマンスを発揮できるように適切にチューニングすることで、すべてのプラットフォームが最高の状態で表示されるように努めています。図1および図2は、テストした各アプリケーションのベンチマークの合成平均として、相対的なパフォーマンス数値を示したものです。[5]

図1:32コアの性能比較

図2:トップ・オブ・スタックの性能比較

明日のAMDアクセラレーテッド・データセンター・プレミアを皮切りに、2023年の残りの期間も、継続的なパフォーマンスアップデートにご期待ください!

まとめ

AMDは、エコシステム・パートナーが実施、監査、公表する独立したテストと、独自の内部テストに依存しています。AMDはまた、独自の内部テストを実施し、時間とリソースを投入してシステムの特性を把握し、ニュアンスを理解し、自社および競合他社のシステムをチューニングして最大のパフォーマンスを実現しています。AMDにとって、お客様は重要な存在であり、そのため、関連するワークロードで当社のプロセッサーがどのように動作するかを紹介することは重要です。システム・レベルの性能が重要なスケールアップ作業負荷におけるトップ・オブ・スタックとトップ・オブ・スタックの性能比較や、仮想マシンの密度が重要なクラウド展開における同様の性能比較を理解することは、お客様にとって重要です。 AMD EPYC™ プロセッサーが提供する継続的なパフォーマンス・リーダーシップについて、 AMD EPYC™ テクニカル・ホワイトペーパーおよびブリーフをご覧ください。また、 AMD EPYC™ サーバー・パフォーマンス・チューニング・ガイドのライブラリーでは、 AMD EPYC™ プロセッサーをさまざまなワークロードで最大限に活用する方法について説明しています。

Raghu Nambiarは、AMDのデータセンター・エコシステム&ソリューション担当コーポレート・バイスプレジデントです。彼の投稿は彼自身の意見であり、AMDの立場、戦略、意見を代表するものではありません。第三者のサイトへのリンクは便宜上のものであり、明示的に記載されていない限り、AMDはそのようなリンク先サイトのコンテンツについて責任を負わず、いかなる保証も意味するものではありません。

こちらの記事はAMD本社のブログ記事を機械翻訳したものです。詳しくは元記事をご覧ください。

脚注:
1.2023年6月12日現在のSPECcpu® 2017の結果。整数レートの結果 AMD:
https://www.spec.org/cpu2017/results/res2023q2/cpu2017-20230410-35820.html,https://www.spec.org/cpu2017/results/res2023q2/cpu2017-20230424-36017.html, Intel: https://www.spec.org/cpu2017/results/res2023q2/cpu2017-20230523-36893.html,https://www.spec.org/cpu2017/results/res2023q2/cpu2017-20230522-36594.html; Floating Point Rate Results. AMD: https://www.spec.org/cpu2017/results/res2023q2/cpu2017-20230410-35818.html,https://www.spec.org/cpu2017/results/res2022q4/cpu2017-20221024-32605.html, Intel: https://www.spec.org/cpu2017/results/res2023q2/cpu2017-20230523-36905.html,https://www.spec.org/cpu2017/results/res2023q1/cpu2017-20230310-34571.html
2.SPECjbb® 2015 results as of June 12, 2023. AMD: https://www.spec.org/jbb2015/results/res2023q1/jbb2015-20230308-01023.html, https://www.spec.org/jbb2015/results/res2023q2/jbb2015-20230419-01034.html. Intel: https://www.spec.org/jbb2015/results/res2023q1/jbb2015-20230308-01026.html,https://www.spec.org/jbb2015/results/res2023q1/jbb2015-20230119-01006.html
3.SPECpower_ssj® 2008 results as of June 12, 2023. AMD: https://www.spec.org/power_ssj2008/results/res2022q4/power_ssj2008-20221204-01204.html, Intel: https://www.spec.org/power_ssj2008/results/res2023q2/power_ssj2008-20230507-01251.html
4.SAP-SD Benchmark scores as of June 12, 2023. 2 x Intel Xeon Platinum 8490H Processor (1.90 GHz, 120 cores, 240 threads) SAP ASE 16. SAPS 428,730 https://www.sap.com/dmc/benchmark/2023/Cert23021.pdf. 2 x AMD EPYC 9654 processor (2.4 GHz, 192 cores, 384 threads) SAP ASE 16. SAPS 809,570 https://www.sap.com/dmc/benchmark/2022/Cert22029.pdf, 809570/428730=1.8882=88.2%
5.TPC Benchmark E results as of June 12, 2023. Result ID: 123052301. 13,000.00 tpsE at $74.09 per tpsE available on May 24, 2023. Result ID: 123031001. 12,436.66 tpsE at $95.46 per tpsE available on May 18, 2023. https://www.tpc.org/tpce/results/tpce_perf_results5.asp
6.VMMark 3 results as of as of June 12, 2023. AMD 9654 2 Node 2 Socket: 40.51 @ 43 Tiles , AMD 7773X 2 Node 2 Socket: 23.64 @ 24 Tiles. Intel 8490H 2 Node 2 Socket: 23.38 @ 23 Tiles
7.以下のシステムでHPCテストを実施し、以下の結果を得た:
システム構成
・32-core AMD: CPU: 2 x AMD EPYC 9374F; Frequencies (base|boost): 3.85 GHz | 4.10 GHz; Cores: 32 cores/socket (64 threads); L3: 256 MB per CPU; Memory: 1.5 TB (24x) Dual-Rank DDR5 4800 64 GB DIMMs 1 DPC; NIC: 25 Gb Ethernet CCX512-A ConnectX-5 (fw 16.35.2000); InfiniBand: 200 Gb HDR ConnectX-6 VPI (fw 20.35.2000); Storage: Samsung MZQL21T9HCJR-00A07 1.92 TB; BIOS: 1007D; BIOS options: SMT=OFF, NPS=4, Determinism=Power, OS: RHEL 8.7 (kernel 4.18.0-425.3.1.el8.x86_64); OS options: amd_iommu=ON, iommu=pt, mitigations=off, clear caches, NUMA balancing=0, THP=on, CPU governor=Performance, C2 states=disabled
・Top of stack AMD: CPU: 2 x AMD EPYC 9684X; Frequencies (base|boost): 2.55 GHz | 3.70 GHz (up to); Cores: 96 cores/socket (192 threads); L3: 1152 MB per CPU; Memory: 1.5 TB (24x) Dual-Rank DDR5 4800 64 GB DIMMs 1 DPC; NIC: 25 Gb Ethernet CCX512-A ConnectX-5 (fw 16.35.2000); InfiniBand: 200 Gb HDR ConnectX-6 VPI (fw 20.35.2000); Storage: Samsung MZQL21T9HCJR-00A07 1.92 TB; BIOS: 1007D; BIOS options: SMT=OFF; NPS=4; Determinism=Power; OS: RHEL 8.7 (kernel 4.18.0-425.3.1.el8.x86_64); OS options: amd_iommu=ON, iommu=pt, mitigations=off, clear caches, NUMA balancing=0, THP=on, CPU governor=Performance, C2 states=disabled
・32-core Intel®: CPU: 2x Intel® Xeon® Platinum 8462Y+; Frequencies (base|boost): 2.40 GHz | 4.10 GHz (up to); Cores: 32 cores per socket (64 threads); L3: 60 MB per CPU; Memory: 1.0 TB (16x) Dual-Rank DDR5 4800 64 GB DIMMs 2 DPC; NIC: 25 Gb Ethernet CCX512-A ConnectX-5 (fw 16.35.2000); InfiniBand: 200 Gb HDR ConnectX-6 VPI (fw 20.35.2000); Storage: Samsung MZQL21T9HCJR-00A07 1.92 TB; BIOS: ESE110Q-1.10; BIOS options: Hyperthreading=Off, Profile = Maximum Performance; OS: RHEL 8.7 (kernel 4.18.0-425.3.1.el8.x86_64); OS options: processor.max_cstate=1; Intel®_idle.max_cstate=0; iommu=pt mitigations=off; clear caches; NUMA Balancing=0; randomize_va_space 0; THP=ON; CPU Governor=Performance
・Top of stack Intel®: CPU: 2x Intel® Xeon® Platinum 8480+; Frequencies (base|boost): 1.90 GHz | 3.50 GHz (up to); Cores: 60 cores per socket (120 threads); L3: 112.5 MB per CPU; Memory: 1.0 TB (16x) Dual-Rank DDR5 4800 64 GB DIMMs 2 DPC; NIC: 25 Gb Ethernet CCX512-A ConnectX-5 (fw 16.35.2000); InfiniBand: 200 Gb HDR ConnectX-6 VPI (fw 20.35.2000); Storage: Samsung MZQL21T9HCJR-00A07 1.92 TB; BIOS: ESE110Q-1.10; BIOS options: Hyperthreading=Off, Profile = Maximum Performance; OS: RHEL 8.7 (kernel 4.18.0-425.3.1.el8.x86_64); OS options: processor.max_cstate=1; Intel®_idle.max_cstate=0; iommu=pt mitigations=off; clear caches; NUMA Balancing=0; randomize_va_space 0; THP=ON; CPU Governor=Performance

32コアのパフォーマンス結果: 以下の結果はすべて、OSおよびBIOSのバージョンや設定、本番サーバーの使用、その他の変数などの要因により異なる場合があります。
・ANSYS® LS-DYNA®: Based on AMD internal testing as of 5/15/2023 on a system powered by 2P 32-Core AMD EPYC 9374F delivers ~1.41x the performance vs. a system powered by 2P Intel® Xeon® Platinum 8462Y+ processors.
・Altair® Radioss™: Based on AMD internal testing as of 5/15/2023 on a system powered by 2P 32-Core EPYC™ 9374F delivers ~1.28x the performance vs. a system powered by 2P Intel® Xeon® Platinum 8462Y+ processors.
・Altair® AcuSolve®: Based on AMD internal testing as of 5/15/2023 on a system powered by 2P 32-Core EPYC™ 9374F delivers ~1.50x the performance compared to a system powered by 2P Intel® Xeon® Platinum 8462Y+ processors.
・Ansys® CFX®: Based on AMD internal testing as of 5/15/2023 on a system powered by 2P 32-Core EPYC™ 9374F delivers ~1.56x the performance compared to a system powered by 2P Intel® Xeon® Platinum 8462Y+ processors.
・Ansys® Fluent®: Based on AMD internal testing as of 5/15/2023 on a system powered by 2P 32-Core EPYC™ 9374F delivers ~1.28x the performance compared to a system powered by 2P Intel® Xeon® Platinum 8462Y+ processors.
・OpenFOAM®: Based on AMD internal testing as of 5/15/2023 on a system powered by 2P 32-Core EPYC™ 9374F delivers ~1.48x the performance compared to a system powered by 2P Intel® Xeon® Platinum 8462Y+ processors.
・GROMACS: Based on AMD internal testing as of 5/15/2023 on a system powered by 2P 32-Core EPYC™ 9374F delivers ~1.08x the performance compared to a system powered by 2P Intel® Xeon® Platinum 8462Y+ processors.
・SLB ECLIPSE®: Based on AMD internal testing as of 5/15/2023 on a system powered by 2P 32-Core EPYC™ 9374F delivers ~1.29x the performance compared to a system powered by 2P Intel® Xeon® Platinum 8462Y+ processors.
・SLB INTERSECT®: Based on AMD internal testing as of 5/15/2023 on a system powered by 2P 32-Core EPYC™ 9374F delivers ~1.36x the performance compared to a system powered by 2P Intel® Xeon® Platinum 8462Y+ processors.
・Shearwater® Reveal®: Based on AMD internal testing as of 5/15/2023 on a system powered by 2P 32-Core EPYC™ 9374F delivers ~1.10x the performance compared to a system powered by 2P Intel® Xeon® Platinum 8462Y+ processors.
・WRF®: Based on AMD internal testing as of 5/15/2023 on a system powered by 2P 32-Core EPYC™ 9374F delivers ~1.42x the performance compared to a system powered by 2P Intel® Xeon® Platinum 8462Y+ processors.

トップ・オブ・スタック:以下の結果はすべて、OSおよびBIOSのバージョンや設定、本番サーバーの使用状況、その他の変数などの要因により異なる場合があります。
・ANSYS® LS-DYNA®: Based on AMD internal testing as of 5/15/2023 on a system powered by 2P 96-Core EPYC™ 9654 delivers ~1.98x the performance compared to a system powered by 2P 60-core Intel® Xeon® Platinum 8490H processors.
・ANSYS® CFX®: Based on AMD internal testing as of 5/15/2023 on a system powered by 2P 96-Core EPYC™ 9654 delivers ~1.69x the performance compared to a system powered by 2P 60-core Intel® Xeon® Platinum 8490H processors.
・ANSYS® Fluent®: Based on AMD internal testing as of 5/15/2023 on a system powered by 2P 96-Core EPYC™ 9654 delivers ~1.82x the performance compared to a system powered by 2P 60-core Intel® Xeon® Platinum 8490H processors.
・OpenFOAM®: Based on AMD internal testing as of 5/15/2023 on a system powered by 2P 96-Core EPYC™ 9654 delivers ~1.52x the performance compared to a system powered by 2P 60-core Intel® Xeon® Platinum 8490H processors.

一覧に戻る