AMD Instinct™ アクセラレーターで業界をエクサスケール時代へと導く

2022-10-17更新

AMD Instinct™ アクセラレーターは、主要な HPC センターで採用が拡大しており、多くの支持を得ています。これは、最近発表されたTop500.orgによる世界のスーパーコンピューターTop500のリストで、 AMD Instinct™ アクセラレーターが世界最速のスーパーコンピューターを支えていることからも、明らかだと言えるでしょう。

AMD Instinct™ アクセラレーターは卓越したパフォーマンスをスケールアップして提供する能力があり、それが成功につながっていると考えられます。 AMD Instinct™ アクセラレーターと AMD EPYC™ CPU を活用したエネルギー省初のエクサスケール級スーパーコンピューターは、米国で計画されている3台のエクサスケール級スーパーコンピューターのうち2台に当たります。この事実は、幅広いHPCユーザーがAMDに対して優れた性能とユーザー体験を提供する能力の両方に高い信頼を置いていることを示しています。

AMD Instinct™ MI250X アクセラレーターと AMD EPYC™ CPU を搭載したオークリッジ国立研究所のFrontierスーパーコンピューターは、エクサスケールの壁を公式に通過した最初のスーパーコンピューターで、最新のTop500リストによると、世界最速を誇っています。AMD Instinct™ MI250X アクセラレーターは、CSCフィンランドの第3位スーパーコンピューター「LUMI」や、CINESの第10位スーパーコンピューター「Adestra」にも搭載されています¹。参考までに、 AMD Instinct™ MI250X GPU と AMD EPYC™ CPU は、22年6月のトップ500リストで全FLOPの30%を提供しています(1)。HPCユーザーによる AMD Instinct™ GPU への強い支持には、いくつかの要因が絡んでいます。その中でも特に重要なのは、以下の点です。

１．HPCおよびAI/MLユースケースをターゲットとした専用コンピュート・アーキテクチャー（AMD CDNA™ (2)）は、他のGPUベンダーの約3.9倍のピーク理論FP64 FLOPsを提供するだけでなく、96 GFLOPs/W以上を実現し、 AMD Instinct™ MI250X はHPC高速化のための最も強力かつ最も効率の良いGPUとなりました(3)。
２．業界初のオープンでポータブルなGPU用ソフトウェア・スタック「ROCm™」は、ソフトウェア開発者とユーザーの両方に対して、 AMD Instinct™ アクセラレーターのパワーを簡単に解放します。私たちは、オープンでポータブルなエコシステムがHPCコミュニティーにおける自由な研究にとって重要であると強く確信しています。
３．AMD HIPは、GPU最適化コードの範囲を拡大するための最先端のオープンソースコンパイラーです。HIPは、 AMD ROCm™ プラットフォームのネイティブ・フォーマットであり、HIP/Clangコンパイラーを使用してシームレスにコンパイルでき、あらゆるGPUプラットフォームで実行できるポータブル性を備えています。AMDは、CUDA®およびOpenACCコードをHIPに移植する簡単なツールで幅広いHPCユーザーベースをサポートし、研究者の加速器ハードウェアの選択の幅を広げます。AMDは、 AMD Instinct™ MI100 製品を皮切りに、HPCやAI/MLトレーニングといった計算集約型のユースケースに新たにフォーカスし、GPUアーキテクチャーの大きな設計転換を行った。HPCやAI/MLのニーズは急速に変化しており、AMDはGPUベンダーとして初めて、このトレンドにフォーカスした専用GPUアーキテクチャーを採用する決断を下しました。その結果、1秒あたりのフロップ数の限界に挑戦するコンピューティングに最適化された、初のコンピュート・フォーカス AMD CDNA™ アーキテクチャーとなりました。

最新のAMD CDNA™ 2アーキテクチャーは、オリジナルのAMD CDNA™ アーキテクチャーの驚異的なコアの強みを基に、同様のプロセス技術を使用しながら、アクセラレーターの性能と使いやすさを飛躍的に向上させました。AMD CDNA™ アーキテクチャーは、計算プラットフォームの出発点として優れたものです。しかし、エクサスケール性能を実現するために、コンピュート・ユニットからメモリ・インターフェースに至るまで、アーキテクチャーを全面的に見直し、特に通信インターフェースを抜本的に改良して、システムの完全なスケーラビリティを実現することに重点が置かれました。

下の画像は、AMD CDNA™ アーキテクチャーのような専用アーキテクチャーを構築するアプローチの利点を明確に対比しています。 AMD Instinct™ GPU の長期にわたる性能向上と、他ベンダーに対するFlopsでの性能は、主要なHPCユーザーからの強い関心の理由を検証するものです。

図1：FP64 GPUの性能推移(イメージ)

AMD ROCm™ ソフトウェア・スタックは、3つの重要な原則に基づいて構築されています。まず、アクセラレーション・コンピューティングでは、システム・リソースに関してプロセッサーとアクセラレーターを統合するプラットフォームが必要です。これらはワークロードごとに異なる役割を果たしますが、効率的に連携し、メモリなどのリソースに等しくアクセスできる必要があります。次に、ソフトウェアライブラリとツールの豊富なエコシステムにより、新しい機能を活用できるポータブルで高性能なコードを実現する必要があります。最後に、ベンダー、顧客、コミュニティー全体を強化するオープンソースのアプローチです。

強力なハードウェアとソフトウェアの基盤を持つ AMD Instinct™ アクセラレーターは、さまざまな業種のHPCアプリケーションを加速するための理想的な発射台となります。AMD Infinity Hub は、ライフサイエンス、物理学、量子化学など、さまざまな領域にわたるHPCおよびAIフレームワークとHPCアプリケーション・コンテナのコレクションで、その数は増え続けています。 AMD Instinct™ アクセラレーターを使用したパフォーマンスを紹介するため、一連のHPCアプリケーションを選択し、他のGPUベンダーと比較しました。性能は、AMD Instinct™ MI250 GPUを4基搭載したギガバイト・サーバーで測定し、他のデータセンターアクセラレーターベンダーのベンチマークサイトから公開されているデータおよび公開ベンチマークが利用できないAMDテストラボの結果を参照しました。

私たちは、結果が実際に提供された性能を反映し、サードパーティーが検証のために再現可能で、ユーザーが実際のユースケースで使用できるべきだと考えています。AMDは、可能な限り、複製テスト用にAMD Infinity Hub上で容易に展開できるHPCアプリケーションおよびベンチマークコンテナを提供しています(4)。

AMD Instinct™ MI250 のすべての性能結果は、AMD テストラボで複数のデータセットにわたって Geomean ベースで実行された OpenMM と HPCG の性能結果を除いて、複数のデータセットにわたって Geomean 計算を使用して算出し、他のベンダーの公表結果と比較しました。

AMD Instinct™ MI250 は、1つのGPUを使用したテストにおいて、テストしたすべてのアプリケーションでA100 80GB SXMを上回り、AMBERで約1.3倍、OpenMMで約1.8倍の性能を達成しました。(5,6,7,8,9)

図2：1x AMD Instinct™ MI250 GPUパフォーマンス (5,6,7,8,9)

マルチ GPU インスタンスでは、AMD Instinct™ MI250 は、 AMD Instinct™ GPU の計算能力と、このテストプラットフォームで MI250 あたり最大 400 GB/S の理論総 I/O バンド幅を提供する高速 AMD Infinity Fabric™ テクノロジーによる Peer-2-Peer インターコネクト性能の強みを発揮し(10)、 OpenMM で最大 1.7 倍の性能、AMBER で約 1.4 倍の性能を達成します。(6,8)

図3: 4x AMD Instinct™ MI250 GPUパフォーマンス. (5,6,7,8,9)

これらの主要なアプリケーション内の個々のモジュールは、 AMD Instinct™ MI250 が最も近いGPU競合製品と比較して、大きな性能上の利点を有していることを強調しています。例えば、4x MI250 GPUでOpenMM amoebapmeを実行すると、図5.6に示すように、A100に比べて最大2.1倍の高いパフォーマンスが得られます。

図4: LAMMPS Perf9、図5:OpenMM Perf8、図6: AMBER Perf6

結論：
エクサスケール・コンピューティングの時代が到来し、HPCに求められる要件は大きく飛躍しました。AMD Instinct™アクセラレーターは、 AMD EPYC™ CPU および ROCm™ オープン・ソフトウェア・プラットフォームとともに、ORNLのFrontierシステムでエクサスケール・スーパーコンピューターを駆動する最初のアクセラレーター・ソリューションであり、HPCユーザーのコンピューティング能力の新時代を切り開くものです。AMD Instinct™ MI200 シリーズのエクサスケールクラス製品とROCm™ SWスタックは、現在、顧客とHPCおよびAIコミュニティー全体が容易に利用できるようになっています。 AMD Instinct™ GPU が提供するアプリケーション性能は、幅広いHPCユーザーによるAMD GPUの採用が進んでいることを示すとともに、専用のコンピュート設計GPUアーキテクチャーとオープンプラットフォームが何を提供できるかを明らかにするものだと言えるでしょう。 AMD Instinct™ MI250 は、これらのHPCアプリケーションのいくつかの主要モジュールにおいて、卓越した理論ピーク性能、性能/ワット、およびHPCアプリケーション性能を発揮します。

これらの結果は、ユーザー自身がテストを実行して確認することをお勧めします。AMDベンチマーク・コードは、AMD Infinity Hub.4で入手可能です。

AMD Instinct™ MI250 GPU性能の詳細については、ここをクリックしてください。

こちらの記事はAMD本社のブログ記事を機械翻訳したものです。詳しくは元記事をご覧ください。

脚注：
1.2022年6月時点のTop500リスト：https://www.top500.org/lists/top500/2022/06/
2.世界最速のデータセンター向けGPUはAMD Instinct™ MI250Xです。AMD Instinct™ MI250X（128GB HBM2e OAMモジュール）アクセラレーターを対象に2021年9月15日現在、AMDパフォーマンスラボがピークブーストエンジンクロック1700MHzで行った計算では、ピーク理論倍精度（FP64 Matrix）95.7TFLOPS, 47.9TFLOPS, 95.7TFLOPS, 47.9TFLOPS, 47.9TFLOPS, 47.9TFLOPS, 95.7TFLOPS となった。 7 TFLOPS ピーク理論単精度マトリクス（FP32 Matrix）、 47.9 TFLOPS ピーク理論単精度（FP32）、383.0 TFLOPS ピーク理論半精度（FP16）、および 383.0 TFLOPS ピーク理論 Bfloat16 形式精度（BF16）浮動小数点性能の結果を示しました。AMD Instinct™ MI100（32GB HBM2 PCIe®カード）アクセラレーターのピークブーストエンジンクロック1,502MHzで、AMD Performance Labsが2020年9月18日に行った計算では、理論倍精度（FP64）ピーク11.54TFLOPS、理論単精度行列（FP32）ピーク46.1TFLOPS、理論単精度（FP32）ピーク23.1TFLOPS、理論半精度（FP16）ピーク184.6TFLOPSの浮動小数点性能となっていました。NVidia Ampere A100 (80GB) GPU アクセラレーター（ブーストエンジンクロック 1410MHz）での公表結果は、倍精度テンソルコア（FP64 Tensor Core）ピーク 19.5 TFLOPS、倍精度（FP64）ピーク 9.7 TFLOPS でした。19.5 TFLOPS ピーク単精度（FP32）、78 TFLOPS ピーク半精度（FP16）、312 TFLOPS ピーク半精度（FP16 Tensor Flow）、39 TFLOPS ピーク Bfloat 16（BF16）、312 TFLOPS ピーク Bfloat16 形式精度（BF16 Tensor Flow）の浮動小数点理論性能となりました。TF32 データフォーマットは IEEE に準拠しておらず、この比較には含まれていない。https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/nvidia-ampere-architecture-whitepaper…, page 15, Table 1. MI200-01
3.AMD Instinct™ MI250X（128GB HBM2e OAMモジュール）500Wアクセラレーターのピークブーストエンジンクロック1,700MHzで2021年9月15日現在、AMD Performance Labsが行った計算では、ピーク理論倍精度（FP64 Matrix）95.7TFLOPS、ピーク理論倍精度（FP64 vector）47.9TFLOPSという浮動小数点性能を示しています。Nvidia A100 SXM（80 GB）アクセラレーター（400W）、ブーストエンジンクロック1410MHzの場合、ピーク理論倍精度（FP64 Tensor Core）19.5TFLOPS、ピーク理論倍精度（FP64 Vector）9.7TFLOPSの浮動小数点演算性能となった。MI200-40
4.アプリケーション・ライセンスの制限により、ベンチマークに使用される一部のコードは、ソフトウェア・リポジトリ・ソースから直接ダウンロードする必要がある場合があります。さらに、アップストリームではまだ利用できないLAMMPS（EAM、LJ 2.5、ReaxFF/C、Tersoff）およびHPLに対するAMDの最適化も含まれています。
5.テスト AMDパフォーマンスラボ8.2.22でNAMD v3 APOA1 NVEおよびSTMV NVEを実行して実施しました。比較対象：2P EPYC™ 7763 CPU搭載サーバー、SMT無効、1xおよび4x AMD Instinct™ MI250 (128 GB HBM2e) 560W、ROCm 5.1.3 using amdih/namd3:3.0a9 container vs NVIDIA Public Claims as of 8.2.22: https://developer.nvidia.com/hpc-application-performance Server manufacturers may vary configuration, yu do different results. 最新のドライバと最適化の使用により、パフォーマンスが異なる場合があります。MI200-65
6.テスト AMDパフォーマンスラボでAMBERを使用して8.2.22を実施。DC-Cellulose_NPT, DC-Cellulose_NVE, DC-FactorIX_NPT, DC-FactorIX_NVE, DC-JAC_NPT, DC-JAC_NVE, DC-STMV_NPT 2システムで比較しました。2P EPYC™ 7763搭載サーバー、SMT無効、1xおよび4x AMD Instinct™ MI250 (128 GB HBM2e) 560W GPU、ROCm 5.0.0, Amber container 20.amd_84 対 NVIDIA Public Claims: https://developer.nvidia.com/hpc-application-performance, Amber version 20.12-AT_21.12 as of 8.2.22. サーバーメーカーにより構成が異なる場合があり、結果が異なる場合があります。最新のドライバと最適化の使用により、パフォーマンスが異なる場合があります。MI200-68
7.テスト AMDパフォーマンスラボにて2022年8月22日にHPCG 3.0を使用して2つのシステムを比較実施。2P EPYC™ 7763搭載サーバー、SMT無効、1x、2x、4x AMD Instinct™ MI250 (128 GB HBM2e) 560W GPU、ROCm 5.0.0.50000-49 を使用した場合。HPCG 3.0 Container: docker pull amdih/rochpcg:3.1.0_97 at https://www.amd.com/en/technologies/infinity-hub/hpcg vs. 2P AMD EPYC™ 7742 server with 1x, 2x, and 4x Nvidia Ampere A100 80GB SXM 400W GPUs, CUDA 11.6 HPCG 3.0 Container: nvcr.io/nvidia/hpc-benchmarks:21.4-hpcg at https://catalog.ngc.nvidia.com/orgs/nvidia/containers/hpc-benchmarks. サーバーメーカーにより構成が異なる場合があり、結果も異なる場合があります。性能は、最新のドライバと最適化の使用により異なる場合があります。MI200-70
8.テスト AMDパフォーマンスラボ8.2.22でOpenMM 7.7.0を使って実施：gbsa、rf、pme、amoebagk、amoebapme、Apoa1rf、Apoa1pme、Apoa1ljpme、Amber20-dhfr、Amber20-cellulose、Amber20-stmvベンチマークで2システムを比較しているところです。2P EPYC™ 7763搭載サーバー、SMT無効、1xおよび4x AMD Instinct™ MI250 (128 GB HBM2e) 560W GPU、ROCm 5.0.0 vs 2P AMD EPYC™ 7742サーバー 1xおよび4x Nvidia Ampere A100 80GB SXM (400W) GPU、CUDA 11.6 の2つのシステムを比較。サーバーメーカーにより構成が異なる場合があり、異なる結果が得られることがあります。最新のドライバと最適化の使用により、パフォーマンスが異なる場合があります。MI200-66
9.Testing LAMMPS 2021.5.14_130を使用してAMDパフォーマンスラボ8.2.22で実施しました。EAM、LJ 2.5、ReaxFF/C、Tersoff、さらに、アップストリームではまだ提供されていないLAMMPS: EAM、LJ 2.5、ReaxFF/C、TersoffへのAMD最適化機能を使用。2つのシステムの比較 2P EPYC™ 7763搭載サーバー、SMT無効、1xおよび4x AMD Instinct™ MI250 (128 GB HBM2e) 560W GPU、ROCm 5.1 2022.5.04 vs NVIDIA Public Claims: https://developer.nvidia.com/hpc-application-performance as of 8.2.22, Version patch 4May2022.本書は、NVIDIA Public Claimsに準拠します。サーバーメーカーにより構成が異なる場合があり、異なる結果が得られることがあります。性能は、最新のドライバと最適化の使用に基づいて異なる場合があります。MI200-67
10.2021年9月18日時点の計算値です。AMD Instinct™ MI250は、AMD Infinity Fabric™テクノロジーをサポートし、AMD Infinity Fabricリンクあたり最大100GB/秒のピーク総理論的トランスポートデータGPUピアツーピア（P2P）バンド幅、および最大8つのリンクを含み、GPU OAMカードあたり最大800GB/秒のピーク総理論GPU（P2P）トランスポートレートバンド幅性能を提供するAMD CDNA™ 2テクノロジーアクセラレーター上に構築されています。AMD Instinct™ MI100は、AMD CDNAテクノロジーアクセラレーターで、PCIe® Gen4をサポートし、カード1枚あたりCPUからGPUへのピーク理論転送データ帯域幅を最大64GB/秒まで提供し、GPUカードあたりピーク理論GPU P2P転送レート帯域幅性能を最大276GB/秒まで提供する3つのリンクが含まれています。PCIe Gen4のサポートと組み合わせることで、GPUカードのI/Oピーク帯域幅は最大340GB/秒になります。サーバーメーカーにより構成が異なる場合があり、結果は異なる場合があります。MI200-13