AMD Instinct™ MI210アクセラレータを世界が歓迎
2022-06-08更新
2021年秋、 AMD Instinct™ MI200 シリーズ・アクセラレーターがオークリッジ国立研究所の Frontier システムをエクサスケール・スパコン時代に突入させることを発表しました。それ以来、この最先端のテクノロジーによって、HPCやAI/MLワークロードが加速させられることを、世界中が待ち望んでいます。AMD Instinct™ MI210 シリーズ・アクセラレーターは、世界最速のスーパーコンピューターの多くに搭載されているのと同じテクノロジーを使用しています。しかし、 PCIe®フォームファクター のパッケージを採用しているため、超倍精度(FP64)加速計算における業界の最先端パフォーマンスをHPCおよびAIにもたらすものです¹。
アーキテクチャーの卓越性
AMD CDNA™ 2 アーキテクチャーは、計算集約型のHPCおよびAI/MLワークロードを高速化するために設計され、プロフェッショナルのために最適化されたアーキテクチャーです。 AMD CDNA™ 2 には第2世代 AMD Matrix Cores が含まれており、新しい FP64 Matrix 機能、最適化された命令、前世代 AMD Instinct GPU 製品のより速いメモリー帯域幅によるメモリー容量の増加により、データ量の多いワークロードをカバーします²。
第3世代の AMD Infinity Fabric™ テクノロジーは、最先端のプラットフォーム接続と拡張性をもたらし、3つのInfinity Fabricリンクを通じてデュアルおよびクワッドのP2P GPUハイブを完全に接続することができます。AMD Infinity Hubは、多くの一般的なHPCおよびAI/MLアプリケーションがあらかじめ設定されているため、すぐに実行可能な状態で提供します。MI210をデータセンターで活用することは、これ以上ないほど簡単なことです。
HPC向けWord最速PCIe®アクセラレーター
AMD Instinct™ MI210 は、世界最速の超倍精度(FP64)データセンターPCIeアクセラレーターによって、HPC向けにFP64で最大22.6テラフロップス、FP64 Matrixピーク理論性能で、NVIDIA Ampere A100 GPUと比べてFP64性能が2.3倍に向上しています¹。さらに、前世代のAMD Instinct GPUコンピュート製品の1.6TB/sのメモリー帯域幅を33%上回る64GBのHBM2eメモリーを搭載し、最も負荷の高いワークロードを処理できます²。
では、これが実際のアプリケーションにどのように反映されるのでしょうか。AMD Instinctベンチマーク・ページで、AMD Instinctアクセラレーターが競合他社に対してどのような強みを発揮しているかを見てください。きっと驚かれることでしょう。
幅広い普及、ソフトウェアの準備
さて、皆さんはどのようにアクセスするか知りたいと思います。私たちは、幅広いテクノロジーパートナーと協力し、お客様が投資から最大限の効果を得られるようにサポートします。
まずは、パートナー企業のサーバーソリューションHPCとAIのカタログページをご覧いただき、お好きなサーバーベンダーから最適なプラットフォームをお選びください。
次に、HPCコードを実現するのに役立つROCm 5オープンソフトウェアプラットフォームをチェックしてみてください。また、AMD Infinity Hubにアクセスし、最適化されたHPCコードをコンテナにカプセル化してダウンロードし、すぐに実行できるようにすることもできます。最新のAMDハードウェアおよびソフトウェアを購入前にテストドライブしたい場合は、AMD Accelerator Cloud(AAC)にアクセスして、リモートでアクセスし、当社の次世代ハイパフォーマンス・テクノロジーを実際に体験することができます。
こちらの記事はAMD本社のブログ記事を機械翻訳したものです。詳しくは元記事をご覧ください。
脚注:
1.AMD Instinct™ MI210(64GB HBM2e PCIe®カード)アクセラレーターを使用し、ピークブーストエンジンクロック1,700MHzで2022年1月14日にAMD Performance Labsが行った計算では、ピーク理論倍精度(FP64 Matrix)が45.3 TFLOPS、ピーク理論倍精度(FP64)が22.6 TFLOPSとなった。AMD Instinct™ MI100(32GB HBM2 PCIe®カード)アクセラレーターのピークブーストエンジンクロック1,502MHzで、AMD Performance Labsが2020年9月18日に行った計算では、11.54TFLOPSの理論上のピーク倍精度(FP64)となりました。NVidia Ampere A100 (80GB) GPU アクセラレーター,ブーストエンジンクロック 1410MHz で 19.5TFLOPS ピーク倍精度テンソルコア (FP64 Tensor Core) と 9.7TFLOPS ピーク倍精度 (FP64) https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/nvidia-ampere-architecture-whitepaper の結果を公表しています.MI200-41
2.AMD Instinct™ MI210(64GB HBM2e)アクセラレーター(PCIe®)をAMD CDNA™ 2アーキテクチャー6nm FinFetプロセス技術で設計し、ピーク・メモリークロック1600MHzで計算した結果、64GB HBM2eメモリー容量、ピーク理論メモリバンド幅性能1.6384TFLOPSとなった。2022年1月27日の時点で、AMD Performance Labsが行った計算結果。MI210のメモリバスインタフェースは4,096ビット、メモリデータレートは3.20Gbpsで、総メモリバンド幅は1.6384TB/s((3.20Gbps*(4096ビット))/8)です。AMD CDNA™アーキテクチャー7nm FinFetプロセス技術で設計されたAMD Instinct™ MI100(32GB HBM2)アクセラレーター(PCIe®)をピーククロック1502MHzで使用した場合、2020年9月18日の時点でAMD Performance Labsが行った計算では、32GB HBM2メモリー容量とピーク理論メモリー帯域幅性能1.2288TFLOPSとなりました。MI210のメモリバスインタフェースは4096ビット、メモリデータレートは2.40Gbpsで、総メモリバンド幅は1.2288TB/s((2.40Gbps*(4096ビット))/8)です。MI200-42
3.MI200-43 2022年1月27日時点の計算です。AMD Instinct™ MI210は、AMD CDNA™ 2テクノロジーアクセラレーターをベースに、PCIe® Gen4をサポートし、1枚あたりCPUからGPUまでのピーク理論データ帯域幅を最大64GB/秒まで拡張します。AMD Instinct™ MI210 CDNA™ 2 テクノロジーベースのアクセラレーターは、Infinity Fabric™リンクを3つ搭載しており、GPUカード1枚あたり、理論ピークで最大300 GB/sのGPU間またはピアツーピア(P2P)帯域幅性能を発揮します。PCIe Gen4のサポートと組み合わせることで、GPUカードのI/Oピーク帯域幅を最大364GB/sに集約できます。デュアルGPUハイブ。1つのデュアルGPUハイブで、最大300GB/sの理論ピークP2P性能を実現します。4GPUハイブ:4GPUハイブ。1つの4GPUハイブで、最大600GB/sのピーク理論P2P性能を実現します。サーバー内のデュアル4GPUハイブでは、1サーバーあたり最大1.2TB/sのピーク理論値P2Pパフォーマンスを提供します。AMD Infinityファブリック・リンク・テクノロジーは有効ではありません。1つの4GPUハイブがPCIe® 4.0で最大256GB/秒のピーク理論P2Pパフォーマンスを提供します。AMD Instinct™ MI100は、AMD CDNAテクノロジーアクセラレーターでPCIe® Gen4をサポートし、カード1枚あたりCPUからGPUまで最大64GB/秒のピーク理論転送データ帯域幅を提供します。AMD Instinct™ MI100 CDNAテクノロジーベースのアクセラレーターは、3つのInfinity Fabric™リンクを備え、GPUカード1枚当たり最大276GB/秒(理論値)のピークGPU間またはピアツーピア(P2P)帯域幅性能を実現します。PCIe Gen4のサポートと組み合わせることで、GPUカードのI/Oピーク帯域幅を最大340GB/sに集約することが可能です。4GPUハイブ1基では、理論上のピークP2P性能が最大552GB/sになります。サーバー内のデュアル4GPUハイブでは、1サーバーあたり最大1.1TB/sのピーク理論値でダイレクトP2Pパフォーマンスを実現します。AMD Infinityファブリック・リンク・テクノロジーは有効ではありません。1つの4GPUハイブで、PCIe® 4.0を使用した最大256 GB/sのピーク理論P2Pパフォーマンスを実現します。サーバーメーカーにより、提供される構成が異なる場合があり、結果は異なる場合があります。MI200-43