第4世代AMD EPYC™プロセッサーに対応したAMDエコシステムの構築と準備

2022-12-01更新

  • twitter
  • facebook
  • line

第1世代のAMD EPYC™ プロセッサーは、高いコア数やリーダー的なパフォーマンスなど、世界を変えるような機能を導入しました。各世代は、複数のセグメントでパフォーマンスのリーダーシップを発揮することで、前世代をベースにしてきました。11月に発表された新しい第4世代AMD EPYCプロセッサー(9004シリーズ)は、多くの場合、ワークロード性能を2倍にして世代を超えた目覚しい性能向上を実現し、この確立した遺産を継承しています。AMD EPYC 9004シリーズ・プロセッサーが提供する重要な機能には、以下のものがあります。

・新しい「Zen 4」コア。最新の「Zen 4」コアは、クロックあたりの命令数が最大14%高いシングルスレッド・アップリフトを世代的に実現し、AVX-512命令のサポートを追加して、特に主要なAI/MLワークロードのソフトウェア性能を向上させます[1]。
・コアが50%増加 第4世代AMD EPYCプロセッサーは、計算負荷の高いワークロードに対して、前世代よりも最大50%多くのコアを提供します。第4世代AMD EPYCプロセッサーの効率性、コア密度、および5nmテクノロジーは、旧世代のAMD EPYCと比較して、全体的な電力/性能効率を大幅に向上させます。
・>2倍以上のメモリ帯域幅:12個のメモリチャネルにより、世代を超えて50%以上の帯域幅を実現。最大4800GHzのメモリ速度をサポートするDDR5の効率と性能は、最も重要なワークロードの要求に対して、さらに50%のメモリ帯域幅を追加します[2]。
・2倍速のPCIe®パフォーマンス。PCIe® Gen5では、PCIe Gen4の2倍の転送速度を実現します。
・2倍高速なInfinity Fabric™: 第3世代Infinity Fabricは、第2世代Infinity Fabricに比べてソケット間のデータ転送速度が2倍高速化されています。AMD Infinity Guardは、機密データを保護するための最新のセキュリティ機能を提供し、安全な暗号化仮想化技術によるコンフィデンシャル・コンピューティングを可能にします[3]。

AMDの目標は、お客様のアプリケーションをAMD EPYCプロセッサーに展開する際に、すぐに使える優れたエクスペリエンスを提供することです。AMDは、最新のデータ駆動型インフラストラクチャーには、ソフトウェアの互換性と高いパフォーマンスの両方が不可欠であることを理解しています。AMD EPYCプロセッサーは、リレーショナル・データベース、ビッグデータ解析、人工知能、テクニカル・コンピューティングなどの主要なワークロードに対して、この点を実現しています。

また、AMDは、オンプレミス・システムとプライベートおよびパブリック・クラウド環境の両方を提供することで、テレコム、ヘルスケア、金融サービス、製造などの業種に注力しています。AMD EPYC 9004シリーズ・プロセッサーは、より優れたパフォーマンスと高速なスループットを実現し、あらゆる面で生産性を向上させるよう設計されています。

これらの主要なワークロードには、お客様の環境に第4世代AMD EPYCプロセッサーを導入する際に最適なパフォーマンスを実現するためのチューニングのベストプラクティスに関するガイダンスが付属しています。www.amd.com/epyc-tuning-guides をご覧ください。

パートナーとの協力が私たちの成功につながる

AMDは、AMD EPYC® 9004シリーズ・プロセッサーをサポートする次世代エンジニアリング・イノベーションを市場に投入するため、拡大するエコシステム・パートナーと密接に連携しています。ハードウェアおよびソフトウェア製品におけるエコシステムの改善は、データセンター、クラウド、そして現在ではエッジにおいて、お客様に即座に価値を提供します。

当社は、当社のエンジニアと協力して幅広いデータセンター・ソリューションを提供し続けている、以下のようなパートナーのエコシステムに感謝しています。

Alibaba Cloud、Altair、Amazon Web Services、Anjuna、Ansys、ASRock、Asus、Atos、BEAMR、Broadcom、Cadence、Canical、Casa Systems、Cisco、Citrix、Cloudera、Couchbase、Dassault Systèmes、Datastax、Dell、Elastic、Equinix、ESI、Excelero、Foxconn、FreeBSD、Gigabyte、Google Cloud、HBC、HPE、IBM Cloud、Inventec、JMA、Juniper、Kioxia、Lenovo、MariaDB、Mavenir、MemSQL、Micron、Microsoft, Mitac、Neural Magic、MongoDB、MSI、MySQL、Netscout、Nokia、Nutanix、Oracle、PGS Software、QCT、Quobyte、Radisys、Red Hat、RedisLabs、Robin、Samsung、ScaleMP、Siemens Digital Industries Software, SK Hynix、Splunk、StorMagic、Supermicro、SUSE、Synopsis、Tencent Cloud、TigerGraph、Transwarp、Tyan、Velocix、Vertica、WEKA、VMware、Western Digital、Wiwynn、Wistron、他。

オペレーティングシステムとセキュリティ

AMDは、AMD EPYCプロセッサーの導入以来、オープンソースのOS、ハイパーバイザー、コンテナー、オーケストレーションへの投資を大幅に増やしています。AMDの開発者は、Linuxカーネルと仮想化スタックの主要な分野に貢献し、インフラの信頼性、堅牢性、およびパフォーマンスの向上に寄与しています。また、エコシステム内のさまざまなオペレーティングシステムベンダーとの取り組みにも深く投資しています。これらのパートナーとの連携により、AMD第4世代EPYCプロセッサーは、Microsoft Windows Server、VMware vSphere、Azure Stack HCI Server、RedHat Enterprise Linux、SUSE Enterprise Linux、Canonical Ubuntu、Oracle Unbreakable Enterprise Kernel、Citrix Hypervisor、NutanixおよびFreeBSDでサポートを受ける予定となっています。完全なリストについては、https://www.amd.com/en/processors/epyc-minimum-operating-system をご覧ください。

AMDが業界にもたらすユニークな差別化要因の1つは、Confidential Computingを可能にするハードウェアアクセラレーションによる暗号化です。これは、プライベートおよびパブリック・クラウド、さらにホスト・サービスにおけるコンピューティングのパラダイム・シフトを画期的に変えるものです。これは、多くの企業がマルチテナント環境で機密性の高いアプリケーションをホストする際に抱いているセキュリティ上の主要な懸念に対処するもので、アプリケーションの使用中に最も貴重な情報を保護するのに役立ちます。

AMDは、オープンソースプロジェクト、オペレーティングシステムパートナー、クラウドベンダーと連携し、AMDのSecure Encrypted Virtualization(SEV)技術に基づくConfidential Computingの開発推進を支援します。SEVのサポートは、Canonical、Nutanix、Oracle、Red Hat、SUSE、およびVMwareから提供されています。また、Google Cloud、Microsoft Azure、Oracle Cloud Infrastructureは、Confidential VMの利用計画を発表しています。さらに、Confidential Containersプロジェクトは、最初のフルリリースを達成し、AMD SEVのサポートを含んでいます。

主要なワークロードを横断するリーダーシップ

私は常にパフォーマンスについて情熱を注いできました。AMD EPYC 9004シリーズ・プロセッサーは、300を超える世界記録で実証されたように、エネルギー効率に妥協することなく、パフォーマンス・リーダーシップを発揮し、驚くべき総合TCOを実現します。

次のセクションでは、基礎的なワークロードから始まり、ハイパーコンバージド環境および仮想化環境、データ管理システム、ハイパフォーマンス・コンピューティング、人工知能および機械学習(AI/ML)ドメインのワークロード、そして最後に金融サービス(ブラック・ショールズ)およびメディアとエンターテインメントに関する業界別のパフォーマンスデータまで、さまざまなワークロードのパフォーマンスデータを紹介したいと思います。

基礎的なワークロードパフォーマンス

・SPEC CPU® 2017を使用した整数・浮動小数点演算性能。SPEC CPU® 2017ベンチマークは、歴史的に最も人気のある業界標準ベンチマークの1つで、異なるコンピュータシステム上のプロセッサー、メモリサブシステム、コンパイラに負荷を与えることにより、計算集約型ワークロードの比較に使用できる性能測定値を提供するよう設計されています。SPEC CPU® 2017には、43のベンチマークが4つのスイートに分類されており、このブログでは、SPECrate 2017 IntegerとSPECrate 2017 Floating Pointの2つのベンチマークについて説明します。図1に示すように、AMD EPYC 9654プロセッサーは、整数[4]と浮動小数点の両方の測定において、前世代のAMD EPYCプロセッサーと比較して2倍以上、最も近い競合他社と比較してそれぞれ~2.5倍、~3.0倍以上の性能を発揮しています[5]。

図1:SPECrate 2017_Int_baseおよびSPECrate2017_fp_baseの世代間および競合他社の性能アップリフツ

・DGEMM による行列の乗算:DGEMM は、倍精度行列の乗算 C ß aAB+bC を計算する一般的なルーチンで、A、B、C は倍精度浮動小数点値を含む行列、a および b はスカラーです。このオープンソースベンチマークは、AOCLのAMD BLISコンポーネントを使用しており、ここから入手できます[6]。図2は、第4世代AMD EPYC 9654プロセッサーが、第3世代AMD EPYC 7763プロセッサーと比較して約1.75倍の世代間アップリフトを実現していることを示しています[6]。

図2:DGEMMの世代別性能アップの様子

・High-Performance Linpack (HPL)です。HPLは、倍精度(64ビット)浮動小数点演算を用いてランダムで密な連立一次方程式を解く、フリーで移植性の高い実装で、クレジットカードサイズのコンピュータから世界最速のスーパーコンピュータまで幅広いシステムで実行することが可能です。例えば、HPLはスーパーコンピュータリスト「Top500」のデータ生成に広く利用されています(http://top500.org)。第4世代AMD EPYC 9654プロセッサーは、第3世代AMD EPYC 7763プロセッサーと比較して、約1.77倍の世代間アップリフトを実現しています[7]。図3参照[7]。

図3:HPLの世代別性能アップの様子

・NGNIXによるWebサーバーのパフォーマンス:NGNIXは、リバースプロキシ、ロードバランサー、メールプロキシ、HTTPキャッシュとしても使用できる一般的なWebサーバーです。AMDは、WRKウェブ(http)クライアントと組み合わせた高性能ウェブサーバーとして、NGINXのスループットを1秒あたりの接続数でテストしました。このテストでは、ベアメタル・デュアルソケットサーバーシステム上のシングルNGINXサーバーインスタンスが使用されました。テストでは、ワーカープロセスの数やキャッシュマネージャ/ローダなど、NGINXサーバーの主要なパラメータをデフォルト値のまま維持しました。この同じシステムで、WRK クライアントを 200 スレッド、14000 コネクションで 90 秒間テストしました(-t 200 -c 14000 -d 90s)。次のグラフ(図 4)は、達成した 1 秒あたりのリクエスト数(rps)を示しており、第 4 世代 AMD EPYC 9654 プロセッサーの世代間および競合他社のパフォーマンスが大幅に向上していることを実証しています[8]。

図4:NGINXの世代別および競合他社のパフォーマンス向上率

・SPECjbb® 2015を用いたEnterprise Java。このベンチマークは、サーバーサイドのJava®ベース・アプリケーションの性能測定を可能にします。SPECjbb®は、POSリクエスト、オンライン購入、データマイニング業務などを複合的に扱うITインフラを持つ企業をシミュレートしています。過去20年間に業界全体でJavaが急速に採用されていることから、このベンチマークは、Java仮想マシン(JVM)ベンダー、ハードウェア開発者、Javaアプリケーション開発者、研究者、学術コミュニティのメンバーなど、すべての利用者に関連するものとなっています。第4世代AMD EPYC 9654プロセッサーは、インテル® Xeon® Platinum 8380プロセッサーの2倍以上の性能を発揮し、このベンチマークのComposite SuiteとMultiJVM Suiteの両方で、第3世代AMD EPYC 7763プロセッサーを大幅に上回る性能を示しました。図 5 および図 6 を参照[9]。

図5:SPECjbb 2015の複合世代性能と競合性能のアップリフト

図6:SPECjbb 2015 MultiJVMの世代別性能と競合性能のアップリフト

・NVMe® over Fabric。NVMe over Fabric (NVMe-oF) プロトコルは、NVM Express® (NVMe) ブロック・プロトコルの並列性と効率を、RDMA (iWARP、RoCE、InfiniBand™)、ファイバ・チャネル、TCPなどのネットワーク・ファブリック上に拡張するものです。ストレージ性能開発キット(SPDK)は、ユーザー空間のNVMe-oFターゲットとイニシエーターの両方を提供し、SPDKスタックの他の部分のソフトウェア効率をネットワーク上に拡張します。SPDK NVMe-oFターゲットは、SPDKユーザースペースのポーリングモードNVMeドライバを使用して、NVMeデバイスへのI/O要求を送信し完了させるため、ソフトウェア処理のオーバーヘッドが削減されます。

SPDK NVMe-oF 4K QD128を使用し、4コア/8スレッドでランダムリードとランダムリード/ライトの両方を実行したCPUコアスケーリング性能テストでは、第4世代AMD EPYCプロセッサーが、前世代のAMD EPYCプロセッサーに比べて、~1.75倍および~2.03倍の世代間性能向上を実現することが示されています。以下の図7を参照してください[10]。

図7:NVMe-oFの世代別性能向上率

仮想化インフラ

現代のデータセンターは、高度に仮想化され、ソフトウェアで定義されています。お客様は、ハイパーコンバージドインフラストラクチャー(HCI)、コンバージドインフラストラクチャー(CI)、パブリック・クラウドの導入など、仮想化環境の効率、拡張性、可用性、および所有コストの低減を求めています。仮想環境には高い性能と密度が求められますが、AMD EPYCプロセッサーの各世代では、より多くのコア、より多くのメモリ帯域幅、より多くのIOを選択することができます。

第4世代AMD EPYCプロセッサーは、仮想化環境にとって重要な主要機能の水準を高めています。最も重要な「機能」は、バランスかもしれません。第4世代AMD EPYCプロセッサーは、データをコアに供給する主要パイプライン(メモリ帯域幅、PCIe性能、Infinity Fabric(ソケット間通信)性能)を大幅に向上させることにより、パブリックおよびプライベートクラウド展開に必要な高密度化とバランスのとれたソリューションの両方を提供します。

アプリケーションの数が増え続け、アプリケーションのワークロードが複雑化することで、性能に対するニーズが高まりますが、電力効率も同様に重要です。第4世代AMD EPYCプロセッサーで提供される新しいプロセッサー・テクノロジーは、仮想化をサポートするためのパフォーマンスと効率性を促進し、あらゆる仮想化環境の実現に卓越した性能を発揮することが可能です。

・VMmarkで仮想化・統合。AMD EPYC® 9004シリーズ・プロセッサーは、VMmark仮想化ベンチマークにおいて卓越した性能を発揮します。VMmarkは、物理ハードウェアのセットで負荷をかけて実行しながら、仮想化サーバーのパフォーマンス、消費電力、拡張性を測定するベンチマーク・ソフトウェア・スイートです。また、複数の仮想化プラットフォーム間の比較もサポートしています。図 8 に示すように、第 4 世代 AMD EPYC 9654 プロセッサーを 2 基搭載した 2 ノードクラスタは、第 3 世代 AMD EPYC 7763 と Intel Xeon Platinum 8380 を搭載した同様のセットアップで達成した 24 タイルと 14 タイルに対し、44 タイルのスコアを達成しました [11]。

図 8:VMmark 3.1.1 マッチペアの世代間および競争力のある性能の高さ

・仮想デスクトップインフラの密度 仮想デスクトップインフラ(VDI)は、仮想デスクトップを提供し管理するために仮想マシンを使用することを指す技術である。Login VSIは、VDI導入の測定、分析、最適化に使用されるテストプラットフォームです。重要な測定の1つは、1台のサーバーが許容できるパフォーマンスレベルを維持しながらサポートできる同時実行仮想ユーザー数です。図 9 に示す結果は、1 台のサーバーでサポート可能な同時実行ナレッジワーカーの数です。第4世代AMD EPYC 9654プロセッサーは、Intel Xeon Platinum 8380を2.00倍以上上回っています[12]。

図9:Virtual Desktop Densityの競争力のあるパフォーマンス向上率

データベース管理システム

構造化、非構造化、および時系列データ型にまたがるデータベースの使用は、アプリケーションの複雑さが増すにつれて、企業全体で爆発的に増加しています。AMD EPYC 9004シリーズ・プロセッサーは、拡張メモリチャネル、PCI Gen5ストレージ、ネットワークサポートを備え、前世代のAMD EPYCや競合プロセッサーと比較して、データベースのスループット、パフォーマンス、予測可能性を向上させることができます。プロプライエタリおよびオープンソースのデータベースを対象とした幅広いテストにより、第4世代AMD EPYCプロセッサーが提供する強さとパワーが浮き彫りになっています。このセクションでは、リレーショナル・データベース、NoSQLデータベース、およびグラフデータベースのパフォーマンス結果について説明します。

 

・リレーショナル・データベース・マネジメント・システム リレーショナル・データベース管理システム(RDBMS)は、ビジネスクリティカルなアプリケーションの基盤であり続けています。AMDは、AMD EPYC® 9004シリーズ・プロセッサーで、オラクルが開発した人気の高いオープンソースのリレーショナル・データベースMySQLを使用して、オンライン・トランザクション処理(OLTP)および意思決定支援システム(DSS)のベンチマークを実施しました。図10に示すように、AMD EPYC 9004シリーズ・プロセッサーは、OLTPおよびDSSのワークロードにおいて、Intel Xeon Platinum 8380プロセッサーの約2.40倍および約2.70倍の性能をそれぞれ実現しました[13,14]。

図 10: MySQL での OLTP と DSS の競争力のあるパフォーマンス向上

・SAP SD による ERP のパフォーマンス:SAP Application Performance Standard(SAPS)は、SAP デプロイメントのパフォーマンスを測定するために使用される標準的な SAP ベンチマークです。SAPSは、SAP環境で動作するシステムのパフォーマンスを記述する、ハードウェアに依存しない測定単位を使用します。これは、Sales and Distribution (SD) ベンチマークから派生したものである。図 11 に示すように、第 4 世代 AMD EPYC 9654 プロセッサーは、第 3 世代 AMD EPYC 7763 プロセッサーおよび Intel Xeon Platinum 8380 プロセッサーと比較して、それぞれ世代および競争力のある性能向上を示しています [15]。

図11:SAP SDの世代交代と競争力アップによるERPパフォーマンス

・LDBC Social Network Benchmarkによるグラフデータベースのパフォーマンス。Linked Data Benchmark Council (LDBC)は、グラフ処理技術に関するコミュニティを育成するために、標準的なグラフベンチマークを定義することを目的としています。LDBC Social Network Benchmark (SNB) Business Intelligence (BI) suiteは、データベース管理システムをターゲットとしたグラフ・ワークロードを定義しています。AMDはこのベンチマークを、超並列、スケーラブル、かつ分散型のTigerGraphグラフ分析データベースプラットフォームを使ってテストしました。このプラットフォームでは、エンティティをグラフのノードとして、それらの関係をノード間をつなぐエッジとして保存します。
このアプローチにより、エンティティ間の自然な関係を複数のテーブルで構造化することなくモデル化し、インタラクティブなクエリーとバッチ処理によるレポートの両方で、巨大データセットの高速なクエリーを可能にします。このモデルは、リレーショナル、ドキュメントベース、キーバリューのデータベースシステムに代わるものとして台頭してきています。TigerGraphは、不正行為の検出、サプライチェーンの最適化、ヘルスケアの推奨など、さまざまなビジネス分野で利用されています。96コアの第4世代AMD EPYC 9654プロセッサーは、SF1000(1000GBのスケールファクター)において、64コアの第3世代AMD EPYC 7763プロセッサーと比較して約2.40倍(トランザクション処理)と約2.70倍(意思決定支援)の世代間性能アップを実現しています。図12参照[16]。

図12:グラフデータベースの世代別性能向上率

・Redisによるインメモリデータベースのパフォーマンス。Redisは、分散型のインメモリKey-Valueデータベース、キャッシュ、メッセージブローカーとして使用されるインメモリデータ構造ストアであり、オプションで耐久性を持たせることも可能です。Redisは、文字列、リスト、マップ、セット、ソートされたセット、HyperLogLog、ビットマップ、ストリーム、空間インデックスなど、さまざまな種類の抽象データ構造をサポートしています。Redisは、インメモリデータセットで動作し、最高のパフォーマンスを実現します。Redisは、ユースケースに応じて、データセットを定期的にディスクにダンプするか、各コマンドをディスクベースのログに追加することによって、データを永続化することができます。図 13 に示すように、AMD EPYC 9004 シリーズ・プロセッサーは、Intel Xeon Platinum 8380 プロセッサーの約 3.00 倍 (Set) および約 3.20 倍 (Get) のパフォーマンスを実現しました[17]。

図13:Redis-bench WRKの世代間および競合他社の性能向上率

ハイパフォーマンス・コンピューティング(HPC)

HPC は、現代の日常生活のほぼすべての側面に接しています。気候や天候の変化を予測し、より安全な自動車、飛行機、建物、橋の設計を支援することで、人命救助に役立っています。また、製品に使用する材料を最小限に抑え、設計を効率化し、開発コストを削減することで、日用品をより安価に提供することにも役立っています。また、バーチャルな製品の高速シミュレーションを可能にすることで、従来、物理的なプロトタイピングやテストに必要だった時間と費用を削減し、市場投入までの時間を短縮することも可能です。これらは、HPCが世界をより良い場所にするために役立っている方法のほんの一部です。

HPC ワークロードの性能に対する要求は高まる一方です。より高い性能は、より速いシミュレーションを可能にします。シミュレーションの高速化により、製品開発期間の短縮、より多くのシナリオのシミュレーション、テストされたモデルの粒度の改良が可能になり、より優れた、より効率的な製品の製造に貢献します。

第4世代AMD EPYCプロセッサーは、商業、研究、学術のHPCワークロードをリードしています。”Zen 4 “コアは、最初のExascaleスーパーコンピュータの心臓部、トップ500リストの1位、およびGreen 500リストの1位を占めています[18]。

まず、SPEChpc™ 2021 と SPEC MPI® 2007 のベンチマークから始め、当社の主要なソフトウェアパートナーやその他のオープンソースのワークロードによる性能のハイライトをいくつか紹介しましょう。このセクションを通じて、第4世代AMD EPYCプロセッサーに見られる主要な新機能が、重要なHPCパフォーマンス指標において大幅な性能向上をもたらしていることがお分かりいただけると思います。

・SPEChpc™ 2021。図 14 (下) は、96 コアの第 4 世代 AMD EPYC CPU を最上位の Intel Xeon Platinum 8380 と比較したときの、約 2.8 倍という驚くべき性能向上 (13.90/4.94) を示しています。

SPEChpc 2021 ベンチマーク・スイートは、計算集約的な並列性能に焦点を当てた様々なシステムのベンチマークを支援するために開発されたものです。これらのベンチマークセットは、HPCワークロードを代表するコード群を提供することにより、HPCシステムの実環境における性能の包括的な指標を提供します。これらのベンチマーク・スイートは、システム全体の多くの側面にストレスを与えるように設計されています。

図 14 は、新しい「Zen 4」コア 96 コア AMD EPYC 9654 プロセッサーが、メモリ帯域幅、ソケット間通信など、他の側面とうまくバランスを取っていることを明確に示しています。このバランスにより、AMD EPYCプロセッサーはHPC全体のパフォーマンスを大幅に向上させることができます[19]。

図 14:SPEChpc 2021 の世代別性能アップと競争力アップ

・SPEC MPI® 2007。SPEC MPI 2007は、システムの様々な側面にストレスを与えるもう一つの標準的なHPCベンチマーク・スイートですが、計算集約型アプリケーション向けのメッセージ・パッシング・インターフェース(MPI)の性能に重点を置いています。MPI の性能は、ほとんどの HPC ワークロードにとって重要です。この結果(以下の図 15 を参照)も,約 1.83 倍(64.1/35)という目覚しい性能向上が見られました.同様に重要なのは、バランスの取れたプロセッサーの性能を示していることです。第 4 世代 AMD EPYC プロセッサーは、50% 増の Zen 4 コアの追加コンピュート機能に必要な IO およびメモリ帯域幅を提供します[20]。

図 15:SPEC MPI 2007 世代別性能向上率

HPCエコシステム・パートナーとの共同作業の一部を紹介しましょう。

・Ansys®(アンシス)。Ansysは、オンプレミスおよびクラウドの両方の展開において、さまざまなエンジニアリングシミュレーションアプリケーションを提供しています。また、Ansysは、AMD EPYCプロセッサーでのハイパフォーマンスへの取り組みを行っています。エンジニアリングとの深い関わりを通じて、アンシスはAnsys MechanicalでAMDのaccelerated math libraries (AOCL)を採用しました。また、Ansys LS-DYNAでは、AMDパフォーマンスコンパイラ(AOCC)を採用しています。これにより,現在の優れたパフォーマンスを実現し,次世 代の AMD プロセッサーで継続的にパフォーマンスを向上させる ための基盤を構築することができます。

図16は、その取り組みが実を結んでいることを示しています。第 4 世代 AMD EPYC プロセッサーは,トップオブスタックの Intel Xeon Platinum 8380 と比較して競争力のある驚くべき性能向上を示し,トップオブスタックの第 3 世代 AMD EPYC 7763 プロセッサーと比較して世代交代した驚くべき性能向上を示 しています。

CFX® (数値流体力学),Fluent® (数値流体力学), LS-DYNA® (陽解法有限要素解析),Mechanical® (陰解法有限要素解析) などの ANSYS イオンについては,当社のラボで性能テストを実施し ました.このテストでは,アンシスが各アプリケーションで提供している標準的なベンチマークのセットを使用し て,ソフトウェアを実行する際のパフォーマンスを評価しました.これらのベンチマークケースは,典型的な使用方法を表しており,さまざまな規模に対応しています[21]。

図 16:Ansys の世代間および競合他社のパフォーマンス向上率

・Altair®(アルテア)。Altairは、シミュレーション、ハイパフォーマンス・コンピューティング、データ解析、AIのためのソフトウェアとクラウドソリューションを提供しています。AMDは、AcuSolve®(数値流体力学)、Feko®(数値電磁気学)、Radioss®(有限要素解析)など、幅広い応用分野にわたる複数のアプリケーションのテストにおいて、Altairのエンジニアリングチームと緊密に協力しました。Radiossは現在、OpenRadiossと呼ばれるオープンソースプロジェクトとしても提供されており、性能や機能に関するより幅広いコラボレーションを可能にしています。

テストしたワークロードは、それぞれシステムに異なる要求を出します。性能比較(図 17)では、最もコア数の多い第 4 世代 AMD EPYC プロセッサー(96 コア)が、全面的に真に優れた世代交代と競争力のアップを実現していることがわかります[22]。

図17:Altairの世代別パフォーマンスと競争力のアップリフト

・Dassault Systèmes® (ダッソー・システムズ SIMULIAは、現実的なエンジニアリング・シミュレーションのためのアプリケーションを提供しています。AMDは、Abaqus/Explicit(陽解法有限要素解析)とPowerFLOW(数値流体力学)の両方を当社のラボでテストしました。図 18 に示すように、第 4 世代 AMD EPYC プロセッサーを実行すると、どちらも驚くほどの世代交代を遂げました[23]。

図18:Dassault Systèmes SIMULIAの世代別パフォーマンス向上率

・シーメンス デジタルインダストリーソフトウェア Simcenter STAR-CCM+ ™は、実環境下で動作する製品のシミュレーションを行うマルチフィジックス数値流体力学(CFD)アプリケーションです。メモリ帯域幅は,CFD アプリケーションの性能に大きく影響する傾向があります.図 19 に示すように,第 4 世代 AMD EPYC プロセッサーに見られる大幅なメモリ帯域幅を利用して,世代を超えた優れた性能向上を実現しています[24]。

図19:Simcenter STAR-CCM+の世代別性能アップの様子

人工知能・機械学習(AI/ML)

人工知能(AI)と機械学習(ML)は、物理、仮想、ベアメタル、クラウドなど、データセンターのあらゆる側面に浸透しています。ML モデルは、画像分類、物体検出、自然言語処理、音声検出など、幅広いビジネス・アプリケーションに導入されています(ただし、これらに限定されるものではありません)。図20に示すように、第4世代AMD EPYCプロセッサーは、以下のAI/ML CPUベースの推論ワークロードにおいて、競争力のある優れた性能向上を実証しています。

・ResNet50:Residual Networks(ResNet)は、コンピュータビジョンに用いられるCNN(Convolutional Neural Network)である。ResNet-50は50層の深さを持つCNNで、一般的に画像の分類に用いられ、学習したモデルを推論に用いる前にImageNetのような画像データセットを用いて学習させます。Neural Magic社の事前学習済みResNet-50v1.5 DeepSparse INT8モデルを複数のプラットフォームで実行し、ImageNetを用いたCPUのみの推論性能を評価しました[25]。

・BERT大。BERT(Bidirectional Encoder Representations for Transformers)は、WikipediaとBooksCorpusで事前に学習された様々な自然言語処理タスクに使用される深層学習モデルで、特定のタスクのために追加のチューニングを必要とします。Neural Magicの事前学習済みBERT-large DeepSparse INT8モデルを複数のプラットフォームで実行し、Stanford Question Answer Database(SQuAD)を用いた質問回答におけるCPUのみの推論性能を評価しました[25]。

・Yolo v5: You Only Look Once (YOLO) は、画像をグリッドに分割し、各グリッドセルがその中のオブジェクトを検出する高速かつ正確なオブジェクト検出アルゴリズムである。Neural MagicのYOLOv5 DeepSparse INT8モデルを複数のプラットフォームで事前学習させ、Common Objects in COntext(COCO)を用いたCPUのみの推論性能を評価しました[25]。

図20:AI/MLパフォーマンス競争力のあるパフォーマンスアップリフト

金融サービス業

金融サービス業界には、銀行、保険会社、投資顧問会社などが含まれます。金融機関は、数マイクロ秒の優位性でも数百万ドルを得ることができる、正確なデータと極めて高いパフォーマンスを必要とします。金融サービス業界では、仮想化インフラを採用し、ビッグデータ分析や人工知能など、従来のワークロードと新たなワークロードを実行しています。さらに、ブラックショールズ・シミュレーションのような垂直アプリケーションのパフォーマンスも重要です。

・ブラック・ショールズ・オプション・プライシング・モデル ブラック・ショールズ・モデルは、いくつかの変数に基づいてオプション価格を決定するために広く使用されています。AMDは、さまざまなオプションのサイズと反復処理について、世代別および競合他社のブラック・ショールズ・パフォーマンス・テストを実施し、1つのシステムで各テストの実行にかかる経過時間を測定しました。図 21 は、第4世代 AMD EPYC 9554 プロセッサーの世代間および競争における性能の大幅な向上を示す、経過時間での高速化を示しています[26]。

図21:ブラック・ショールズ式世代別・競争力別業績アップリフト

メディア・エンターテイメント

この分野では、建築物のビジュアライゼーションから、ショー、映画、シミュレーションなど、さまざまな用途の静止画や動画のレンダリングを含む幅広いワークロードを対象としています。テープやディスクなどの物理メディアから、携帯電話やタブレット、ノートパソコンやデスクトップパソコン、様々なサイズや解像度、性能を持つテレビなどあらゆるユーザーにオンデマンドで静止画や動画を提供するストリーミングサービスへの移行が進む中、デジタルグラフィックスが日常生活に浸透しています。

今日のユーザーは、可能な限り少ない帯域幅で、可能な限り高い解像度で、可能な限りリアルな映像を配信することを求めています。このような複合的な需要により、メディアのレンダリング、エンコード、デコード、トランスコード(あるフォーマットから別のフォーマットへの変換)を迅速かつ効率的に行う必要性が生じています。第4世代AMD EPYCプロセッサーは、これらの要求を満たすために必要な優れた性能を提供します。以下はその主な例です (統合結果については、以下の図 22 を参照)。

・Autodesk® Arnoldです。Arnoldは、VFXやアニメーション制作のために設計された高度なモンテカルロ・レイトレーシング レンダラーです。Maya、Houdini、3ds Max、Cinema 4D、Katanaなど、デジタルアーティストが使用するトップツールとプラグインを介して連携するように設計されています。AMDは、第4世代AMD EPYC 9654プロセッサーを第3世代AMD EPYC 7763プロセッサーと比較してテストし、gtc_robotシーンのレンダリングにおいて、世代間で約1.90倍の性能向上が確認されました[27]。

・カオス® V-Ray®。V-Ray5は、3ds Max、Cinema 4D、Houdini、Maya、Nuke、Revit、Rhino、SketchUp、Unrealなどの主要な3DデザインおよびCADプログラムでシームレスに動作する3Dレンダリングプラグインです。V-rayは、アーティストやデザイナーがリアルタイムにレイトレーシングを行い、高品質の3Dビジュアライゼーションをレンダリングする機能により、プロジェクトを作成・共有することを可能にします。映画やテレビの制作、広告、建築のビジュアライゼーションなどに広く利用されています。第4世代AMD EPYC 9654プロセッサーは、第3世代AMD EPYC 7763プロセッサーと比較して、世代間で約1.91倍の性能向上を実現しています[28]。

・Synamedia® Virtual Digital Content Manager (vDCM): Synamedia vDCMは、多くのビデオフォーマットでライブ配信するために、ソフトウェアベースのビデオ、オーディオ、メタデータ処理を仮想化し、高度な処理を提供します。放送局、コンテンツプロバイダー、サービスプロバイダーは、高画質とマルチスクリーントランスコーディングを含む優れた視聴体験を高い帯域幅効率で提供することができます。Synamediaのテストによると、第4世代AMD EPYC 9654プロセッサーは、幅広いビデオビットレート、解像度、フレームレート、フォーマットにおいて、わずか50%多いプロセッサーコアで第3世代AMD EPYC 7763プロセッサーと比較して平均約77.5%(H.264)および100%(H.265)世代ビデオエンコーディング性能アップを達成しました。第4世代AMD EPYC 9654プロセッサーを搭載した1つのデュアル・プロセッサー・システムでは、2つの8Kビデオ・ストリームを60フレーム/秒で同時にトランスコードすることができます[29]。

・ビジョニュラーAV1コーデック Visionular AV1コーデックは、高い性能と忠実度を提供する先進のビデオコーディングフォーマットです。第4世代AMD EPYC 9654プロセッサーは、crowd_runシーンのエンコード時に、第3世代AMD EPYC 7763プロセッサーに比べて約1.66倍のフレームレートで8つの同時ビデオ・ストリームをエンコードします。Tears_of_Steelのシーンでは、第4世代AMD EPYC 9654プロセッサーは、第3世代AMD EPYC 7763プロセッサーと比較して、8つの同時ストリームを約1.55倍のフレームレートでエンコードしています。この結果は、わずか50%のコア増で世代を超えた約2倍の性能向上を示しています[29]。

図 22:解像度を変えた場合のメディアとレンダリングの世代別パフォーマンス上昇率

AMDが実現するモダンなデータセンター

第4世代AMD EPYCプロセッサーの発売は、ワークロード全体で最適なTCOを実現する世界最高性能のサーバー・プロセッサーの登場を告げるもので、業界をリードするx86エネルギー効率[30]によりサステナビリティ目標のサポート、およびソリューションの豊富なエコシステムを通じたConfidential Computingを支援するものです。AMD EPYCプロセッサーは、今日と明日のデータセンターを強化するために設計された、成長を続けるAMD製品群のバックボーンであり続けています。

・AMD Instinct™アクセラレータは、エクサスケールでの発見を促進し、科学者が我々の最も差し迫った課題に取り組むことを可能にするよう設計されています。
・AMD Pensandoソリューションは、データがどこにあっても高度にプログラム可能なソフトウェア定義のクラウド、コンピュート、ネットワーキング、ストレージ、セキュリティ機能を提供し、ロックインのリスクなしに、現在のアーキテクチャと比較して生産性、パフォーマンス、スケールを向上させることを支援します。
・AMD ザイリンクスは、非常に柔軟で適応性の高い FPGA、ハードウェア適応型 SoC、および Adaptive Compute Acceleration Platform (ACAP) プロセッシング プラットフォームを提供し、エンドポイントからエッジ、クラウドまでさまざまなテクノロジーで迅速なイノベーションを実現します。

Raghu Nambiarは、AMDのデータセンター・エコシステムズ&ソリューションズ担当コーポレート・バイスプレジデントです。彼の投稿は彼個人の意見であり、AMDの立場、戦略、意見を代表するものではありません。第三者のサイトへのリンクは便宜上提供されているものであり、明示的に記載されていない限り、AMD はそのようなリンク先サイトのコンテンツに責任を負わず、いかなる推奨も示唆されません。

こちらの記事はAMD本社のブログ記事を機械翻訳したものです。詳しくは元記事をご覧ください。

 

脚注:

[1] EPYC-038: AMD EPYC 9004シリーズは、代表的なサーバー・ワークロードにおいて、世代間で最大14%の幾何学的IPCシングル・スレッドの向上を実現します。
[2] EPYC-032です。AMD EPYC 9004 CPUは12メモリチャネルをサポートします。Intel Scalable Ice Lake CPUは8メモリチャネルをサポートしています。12 ÷ 8 = 1.5 倍のメモリチャネル、または https://ark.intel.com/ あたり 50% のメモリチャネルをサポートします。
[3] GD-183です。AMD Infinity Guardの機能は、EPYC™プロセッサーの世代によって異なります。Infinity Guardのセキュリティ機能を動作させるには、サーバーOEMやクラウドサービスプロバイダーが有効にする必要があります。これらの機能のサポートについては、OEMまたはプロバイダーにご確認ください。Infinity Guardの詳細については、https://www.amd.com/en/technologies/infinity-guard
[4] SP5-010B: SPECrate®2017_int_base 2022/10/11時点のwww.spec.org の公開スコアを基に作成。構成は以下の通りです。2P AMD EPYC 9654 (1790 SPECrate®2017_int_base、総コア数192、www.spec.org/cpu2017/results/res2022q4/cpu2017-20221024-32607.html)は、公開されている2P Intel Xeon Platinum 8380 (602 SPECrate®2017_int_base、総コア数80、http://spec.org/cpu2017/results/res2021q2/cpu2017-20210521-26364.html)の2.97倍の性能です。公開されている2P AMD EPYC 7763 (861 SPECrate®2017_int_base, 128 total cores, http://spec.org/cpu2017/results/res2021q4/cpu2017-20211121-30148.html)は、参考までに1.43倍と表示されています。SPEC®、SPEC CPU®、およびSPECrate®は、Standard Performance Evaluation Corporationの登録商標です。詳しくは、www.spec.org をご覧ください。
[5] SP5-009C: SPECrate®2017_fp_base 2022/10/11時点のwww.spec.org の公開スコアを基に作成。構成は以下の通りです。2P AMD EPYC 9654 (1480 SPECrate®2017_fp_base, 192 total cores, www.spec.org/cpu2017/results/res2022q4/cpu2017-20221024-32605.html)は、公開されている2P Intel Xeon Platinum 8380 (587 SPECrate®2017_fp_base, 160 total cores, https://www.spec.org/cpu2017/results/res2022q4/cpu2017-20221010-32542.html)の2.52倍の性能。参考として公開されている2P AMD EPYC 7763 (663 SPECrate®2017_fp_base, 128 Total Core, http://spec.org/cpu2017/results/res2021q4/cpu2017-20211121-30146.html) 1.13 倍で表示されています。SPEC®、SPEC CPU®、SPECrate®は、Standard Performance Evaluation Corporationの登録商標です。詳しくは、www.spec.org をご覧ください。
[6] SP5-076。2P 96コアEPYC™ 9654搭載の「Titanite」リファレンス・プラットフォームにおける2022年11月10日時点のAMD内部テストに基づくDGEMM比較では、2P 64コアEPYC 7763プロセッサー搭載の「Daytona-X」リファレンス・プラットフォームと比較して約1.75倍のGFLOPSを達成しました。結果は、OSやBIOSのバージョン、設定、運用サーバーの使用状況、その他の変数などの要因により異なる場合があります。
[7] SP5-077:2022年11月10日時点のAMD社内テストに基づくHPL比較では、2P 96コアEPYC™ 9654搭載の「Titanite」リファレンス・プラットフォームは、2P 64コアEPYC 7763プロセッサー搭載の「Daytona-X」リファレンス・プラットフォームと比較して、約1.77倍のGFLOPSを提供します。結果は、OSやBIOSのバージョン、設定、運用サーバーの使用状況、その他の変数などの要因により異なる場合があります。
[8] SP5-074。2P 96コアEPYC 9654と2P 40コアXeon Platinum 8380でNGNIX WRKワークロードを実行したAMD測定中央値によるNGNIX WRK比較(2022/11/10現在)。構成 2x AMD EPYC 9654 (3076105 rps) vs 2x Xeon Platinum 8380 (1502721 rps)、2.05倍のrpsパフォーマンス。2P AMD EPYC 7763のスコア2490726 rpsは、参考までに1.67倍で表示されています。結果は異なる場合があります。
[9] SPECjbb® 2015の結果は、以下の場所で公開されています。
SPECjbb2015-MultiJVM Max-jOPS (Intel Xeon Platinum 8380): https://spec.org/jbb2015/results/res2021q2/jbb2015-20210519-00650.html
SPECjbb2015-MultiJVM Critical-jOPS (Intel Xeon Platinum 8380): https://spec.org/jbb2015/results/res2021q3/jbb2015-20210810-00701.html
SPECjbb2015-MultiJVM Max-jOPS (AMD EPYC 7763): https://spec.org/jbb2015/results/res2021q3/jbb2015-20210701-00692.html
SPECjbb2015-MultiJVM Critical-jOPS (AMD EPYC 7763): https://spec.org/jbb2015/results/res2021q3/jbb2015-20210701-00688.html
SPECjbb2015-MultiJVM Max-jOPS (AMD EPYC 9654): http://spec.org/jbb2015/results/res2022q4/jbb2015-20221019-00861.html
SPECjbb2015-MultiJVM Critical-jOPS (AMD EPYC 9654): http://spec.org/jbb2015/results/res2022q4/jbb2015-20221019-00860.html
SPECjbb2015-Composite Max-jOPS (Intel Xeon Platinum 8380): https://spec.org/jbb2015/results/res2021q4/jbb2015-20211006-00707.html
SPECjbb2015-Composite Critical-jOPS (Intel Xeon Platinum 8380): https://spec.org/jbb2015/results/res2021q4/jbb2015-20211006-00707.html
SPECjbb2015-Composite Max-jOPS (AMD EPYC 7763): https://spec.org/jbb2015/results/res2021q3/jbb2015-20210701-00689.html
SPECjbb2015-Composite Critical-jOPS (AMD EPYC 7763): https://spec.org/jbb2015/results/res2021q3/jbb2015-20210701-00689.html
SPECjbb2015-Composite Max-jOPS (AMD EPYC 9654): http://spec.org/jbb2015/results/res2022q4/jbb2015-20221019-00858.html
SPECjbb2015-Composite Critical-jOPS (AMD EPYC 9654): http://spec.org/jbb2015/results/res2022q4/jbb2015-20221019-00858.html
[10] 2P 96コアEPYC™ 9654搭載の「Titanite」リファレンス・プラットフォームにおける2022年11月10日時点のAMD社内テストに基づくSPDK性能比較では、1P 32コアEPYC 7543Pプロセッサー搭載のDELL PowerEdge R6525と比較して平均ランダムリード(4Kブロック)は約1.75倍、平均ランダムリード/ライト(4Kブロック)は約2.03倍となりました。結果は異なる場合があります。
[11] SP5-049A: VMmark® 3.1.1 マッチドペアの比較は、2022年11月10日時点の公開結果に基づいています。構成は以下の通りです。VMware ESXi 8 RTM (40.19 @ 44 tiles/836 VMs, https://www.vmware.com/content/dam/digitalmarketing/vmware/en/pdf/vmmark/2022-10-18-HPE-ProLiant-DL3…) を実行する2ノード、2P 96コア EPYC 9654搭載サーバーとVMware ESXi v7 U2 (14.19 @ 14 tiles/266 VMs, https://www.vmware.com/content/dam/digitalmarketing/vmware/en/pdf/vmmark/2021-04-20-Fujitsu-PRIMERGY…) を実行する2ノード、2P 40コア Xeon Platinum 8380の比較では2.8倍のスコアと3.1倍のタイル (VM) 容量を達成しました。2ノード、2P EPYC 7763搭載サーバー(23.33 @ 24 tiles/456 VMs, https://www.vmware.com/content/dam/digitalmarketing/vmware/en/pdf/vmmark/2022-02-08-Fujitsu-RX2450M1… )参考までに1.6倍のパフォーマンスで表示されます。VMmarkは、米国またはその他の国におけるVMwareの登録商標です。
[12] SP5-054: AMD EPYC 9654(平均VSImaxセッション数933)対 Intel Xeon Platinum 8380(平均VSImaxセッション数400)の2台のサーバーで、VMware ESXi 8 GAおよびVMware Horizon 8を用いてVSI Baseline +1000ms応答時間内で最大「知識労働」デスクトップセッション(VSImax)計測した2022/10/19時点のAMD社内テストによる比較結果。 結果は異なる場合があります。
[13] SP5-070: 2P 96コア EPYC™ 9654は、HammerDB TPROC-Hを使用して、2P 40コア Xeon® Platinum 8380に対して中央値で約2.7倍のクエリー/時を達成しました。
[14] SP5-071: 2P 96コア EPYC™ 9654は、HammerDB TPROC-Cを使用して、2P 40コア Xeon® Platinum 8380と比較して約2.4倍のトランザクション/分(中央値)を達成しました。
[15] SP5-056:SAP® SD 2階層比較は、2022年11月10日時点の公開結果に基づく。構成は以下の通り。2P 96コア EPYC 9654搭載サーバー(148,000人のベンチマークユーザー、https://www.sap.com/dmc/benchmark/2022/Cert22023.pdf) 対 2P 40コア Xeon Platinum 8380(48,000, https://www.sap.com/dmc/benchmark/2021/Cert21026.pdf) SAP SDベンチマークユーザー数で3.08倍となる。2P EPYC 7763搭載サーバー(75,000人のベンチマークユーザー、https://www.sap.com/dmc/benchmark/2021/Cert21021.pdf)は、参考までに1.79倍のパフォーマンスで表示されています。詳しくは、http://www.sap.com/benchmark。SAPおよびSAPロゴは、ドイツおよびその他の国々におけるSAP SE(またはSAPの関連会社)の商標または登録商標です。
[16] SP5-075。LDBC Social Networking BI SF1000の比較は、2P 32コアEPYC 9534と2P 32コア7543でTigerGraph 3.7.0 Enterprise上のLDBC Social Networking BIワークロードを実行した際のAMD測定中央値に基づいています(2022年11月10日時点)。構成は以下の通りです。2x AMD EPYC 9354 (5164.8 seconds/16.7 queries per day throughput) vs 2x EPYC 7543 (5710.7 seconds/15.1 queries per day throughput), 32 queriesで約1.11倍のスループット性能となりました。結果は異なる場合があります。

[17] SP5-078: 2P 96コアEPYC 9654と2P 40コアXeon Platinum 8380でRedis 6.0のRedisベンチマークワークロードを実行した際のAMD測定中央値によるRedisベンチマーク比較(2022年11月10日時点)。構成は以下の通りです。2P AMD EPYC 9654 (24 スレッド/12 インスタンスを使用した 2128736 セット rps/2566882 ゲット rps) vs 2P Xeon Platinum 8380 (16 スレッド/8 インスタンスを使用した 709235 セット rps/795167 ゲット rps) セット性能で約 3 倍、ゲット rps で約 3.2 倍のパフォーマンス。2P EPYC 7763 (1393626 set rps/1728928 get rps using 24 threads/8 instances) 参考までに、セットrpsが~1.96倍、ゲットrpsが~2.17倍のパフォーマンスで示されています。結果は異なる場合があります。

[18] 2022年6月時点のTop500とGreen500。 https://www.top500.org/
[19] SPEChpc™ 2021 Tinyの結果は、以下の場所で公開されています。
2P Intel Xeon Platinum 8380 (4.94 SPEChpc_2021_tiny_base https://www.spec.org/hpc2021/results/res2022q3/hpc2021-20220801-00105.html)
2P AMD EPYC 7763  ( 6.26 SPEChpc_2021_tiny_base; https://www.spec.org/hpc2021/results/res2021q4/hpc2021-20210908-00034.html )
2P AMD EPYC 9654:  13.9 SPEChpc_2021_tiny_base;   https://www.spec.org/hpc2021/results/res2022q4/hpc2021-20221016-00135.html
[20] SPECmpi™ 2007の結果は、以下の場所で公開されています。
2P AMD EPYC 7763: 35.0 SPECmpiM_base2007 https://www.spec.org/mpi2007/results/res2021q1/mpi2007-20210223-00673.html
2P AMD EPYC 9654: 64.1 SPECmpiM_base2007 https://www.spec.org/mpi2007/results/res2022q4 /mpi2007-20221018-00685.html
[21] https://www.amd.com/system/files/documents/amd-epyc-9004-pb-ansys-generational.pdf
[22] https://www.amd.com/system/files/documents/amd-epyc-9004-pb-altair-generational.pdf
[23] https://www.amd.com/system/files/documents/amd-epyc-9004-pb-simulia-generational.pdf
[24] https://www.amd.com/system/files/documents/amd-epyc-9004-pb-simcenter-star-ccm-generational.pdf
[25] SP5-022:Neural MagicのAMDリファレンスシステムでの測定結果(2022/9/29時点)。構成:2P EPYC 9654 “Titanite” vs 2P EPYC 7763 “Daytona “動作環境:Ubuntu 22.04 LTS, Python 3.9.13, pip==22.12/deepsparse==1.0.2. BERT-Large Streaming Throughput items/sec (seq=384, batch 1, 48 streams, INT8 + sparse) using SQuAD v1.1 dataset; ResNet50 Batched Throughput items/sec (batch 256, single-stream, INT8 sparse) using ImageNet dataset; YOLOv5s Streaming Throughput ([image 3, 640, 640], batch 1, multistream, per-stream latency <=33ms) using COCO dataset.テストでは、seq3, batch 1, doublestream, doublestream + sparse) を使用した場合のスルー プットの平均値は、1秒間に1個となりました。AMDが独自に検証したテストではありません。
[26] SP5-031: ブラック・ショールズ・ヨーロピアン・オプション・プライシングのベンチマーク比較は、2022年10月4日時点の100、200、400、800、1600MオプションについてAMDの測定に基づく。最大スコアは、200Mオプションに基づくものです。構成は以下のとおりです。2x 40-core Intel Xeon Platinum 8380 vs 2x 64-core EPYC 9554 すべてのシステムはUbuntu 22.04で、ICC 2022.1.0でコンパイルされたものです。結果は異なる場合があります。
[27] SP5-039: 2022年9月27日時点のAMDリファレンス・プラットフォームの内部測定に基づくAutodesk® Arnold gtc_robotワークロード比較。2P AMD EPYC 9654 (平均99秒/872.73レイトレース/日)の比較は、2P Intel Xeon Platinum 8380 (平均235秒/367.66レイトレース/日)の約2.4倍の性能です。結果は異なる場合があります。2P EPYC 7763は参考値(平均秒数167/レイトレース数517.37/日)で、~1.4倍です。
[28] SP5-038A:V-Rayは、2022/11/10時点のhttps://benchmark.chaos.com/v5/vray の公開スコアを基にしたもの。2P AMD EPYC 9654 (209,102 max/206419 median vsamples, https://benchmark.chaos.com/v5/vray/#####) の比較は、公表されている2P Intel Xeon Platinum 8380 (62,619 max/median vsamples, https://benchmark.chaos.com/v5/vray/29746) の3.32倍の性能です。2P EPYC 7763は参考値(109,248/99,443 median vsamples, https://benchmark.chaos.com/v5/vray/29746)です。Chaos®、V-Ray®、Phoenix FD®は、ブルガリアおよびその他の国におけるChaos Software EOODの登録商標です。注:7763 スコアを使用する場合のみ、テキストを赤で囲んでください。
[29] AMDが独自に検証したものではありません。
[30] SPCTCO-002A: 2P AMD EPYC 96コア9654 CPU搭載サーバーで、10,000単位の整数演算性能を実現するためには、推定で以下のようなコストがかかります。40コアのIntel Xeon Platinum 8380 CPUを搭載した2Pサーバーと比較すると、サーバー数は59%少なく(AMDサーバー7台、Intelサーバー17台)、電力は46%少なく、3年間のTCOは48%少なくなっています。また、2P EPYC 96コアCPUソリューションは、3年間で米国で燃焼されなかった石炭145,443ポンドに相当する温室効果ガス排出量の削減と、米国で年間53エーカーの森林に相当する炭素固定を実現すると試算しています。

一覧に戻る