AMD InstinctアクセラレータでHPCを次のレベルの持続可能性のある形へ
2023-08-23更新
ハイパフォーマンス・コンピューティング(HPC)は、科学研究、エンジニアリング、セキュリティなどの分野に必要な、複雑なシミュレーションや計算を実行する、現代社会にとって不可欠なものとなっています。しかし、スーパーコンピューターや大規模なデータセンターなど、HPCの需要が高まるにつれて、環境への影響に対する懸念も高まっているのが現状です。近年、総所有コストや気候への影響を考慮し、データセンターの持続可能性に注目が集まっています。このブログ記事では、データセンターのエネルギー効率に関する重要な問題を探り、HPCによる環境への影響を軽減するためのAMDの戦略について説明していきます。
データセンターが直面する最大の課題の1つは、エクサスケールやそれ以上にスケールアップする際のエネルギー消費量です。サーバー・ノードは膨大な量のエネルギーを消費し、HPCはCPUとアクセラレータのすべてでさらに多くのエネルギーを必要とするため、効率を改善することが重要優先事項となります。HPCコンピュートへの需要が増加し続ける中、エネルギー消費が重要な要素となっています。このエネルギー消費は環境に負担をかけるだけでなく、業界がより高い計算性能を求める中、データセンター事業者の収益にも影響します。その結果、業界が次のマイルストーンに突き進むにつれて、ワットあたりの性能の大幅な向上が必要とされています。
AMDは最先端のサーバー用CPUとGPUの設計者であるため、これらの重要な優先課題に取り組む上で重要な役割を担っていると認識しています。私たちは、サーバーのエネルギー効率を加速させ、データセンターの総所有コスト(TCO)の削減を可能にし、世界で最も困難な課題に取り組むためのハイパフォーマンス・コンピューティング(HPC)を提供することに注力しています。2021年9月、AMDはプロセッサのエネルギー効率を向上させるという野心的な目標を発表しました。この目標を達成するには、AMDが過去5年間に業界全体が達成した改善速度の2.5倍以上の速度で、コンピュート・ノードのエネルギー効率を向上させる必要があります。
AMD Instinct™ アクセラレータは、デバイスおよびシステム・レベルでワットあたりの優れた性能を提供することにより、エネルギー効率の高いHPCおよびAIを実現し、計算のエネルギー効率を改善しています。AMD HPCおよびAIのエネルギー効率目標を達成するには、システム・レベルの改善を加速するために組み合わせるアーキテクチャ、メモリ、相互接続に関する次のレベルの考え方が必要です。 AMD Instinct MI200 シリーズ・アクセラレータについては、多面的なアプローチから検討し、ワットあたりの性能と効率でリーダーシップを発揮するための主要テクノロジーについて、以下で詳しく説明します。
アーキテクチャ・テクノロジー – MI200シリーズのAMD CDNA™ 2 アーキテクチャは、HPCおよびAI向けにマトリックス・コア・テクノロジーを強化し、倍精度浮動小数点データおよびさまざまなマトリックス・マルチプライ・プリミティブの計算機能を推進することで、旧世代と比較して大きな飛躍を遂げました。特に重視したのは、FP64 MatrixおよびVectorデータを使用した科学計算で、1.1エクサフロップスの性能を持つオークリッジ国立研究所のスーパーコンピューター「Frontier」のような大規模システムでスケールアップした場合、エクサスケールレベルの性能を実現します。これらの改善により、CDNAアーキテクチャの先行世代であるMI100と比較して、FP64ベクトルTFLOPS/秒はともに4倍、FP64 TFLOPS/ワットは2.5倍向上し、ワットあたりの性能が改善されました(1)。
パッケージング技術 – チップレットと高度なパッケージング技術は、性能と全体的な効率を向上させる大きな要因となります。これらの技術により、異なる機能に異なる技術を使用したり、複数のアクセラレータ・ダイを組み合わせたり、アクセラレータをメモリなどに近づけたりすることができます。相互接続密度を高密度にすればするほど、ソリューションはより効率的になり、消費されるコストのかかるデータ転送エネルギーを低減することができるのです。
・MCM – 世界初のマルチチップGPUで、1つのパッケージで計算とデータのスループットを最大化するように設計されています。MI250およびMI250Xは、シングル・パッケージで2つのAMD CDNA 2グラフィック・コア・ダイ(GCD)を使用し、高度に凝縮されたパッケージで580億トランジスタを実現し、AMDの前世代アクセラレータと比較して、コア数が1.8倍、メモリ帯域幅が2.6倍向上しています(2)。2つのGCDは、チップ間通信用の高速インターフェースによって接続されています。
・Elevated Fanout Bridge – AMD CDNAチップを基板上部のそれぞれのHBM2Eメモリ・スタックに接続します。従来は、高密度相互接続をサポートするために、マイクロバンプを使用したシリコンインターポーザが配備されていました。このアプローチでは、シリコン+HBMアセンブリ全体をサポートするために、大きなシリコン基板が必要となります。EFB 2.5Dブリッジ・イノベーションにより、AMDはブリッジ・アプローチの電気的利点を得ると同時に、以下のような利点も得ることができます。
通信技術 – 高性能コンピューターを開発する際、大量のデータを処理するには通信が鍵となります。また、プロセッサと外部との間でデータを効率的に移動させる能力も、規模を拡大したり縮小したりする際のシステム性能に不可欠です。シリコンチップを物理的、電気的に近づけることで、通信エネルギーを劇的に削減できると同時に、より高いスループットの可能性を提供することができます。AMDインフィニティ・アーキテクチャは、CPUとGPU、GPUとGPU間の高速通信ハイウェイであり、通信効率を向上させるアクセラレータの2つの領域について説明します。
・チップ間相互接続 – パッケージ内の AMD Infinity Fabric™ インターフェースは、AMD CDNA 2ファミリーの重要な革新技術の1つで、MI250またはMI250X内の2つのGCDを接続します。パッケージ内のGCD間の距離が極めて短いという利点を生かし、25Gbpsで動作し、極めて低い消費電力で、GCD間の理論上の最大双方向帯域幅は400GB/秒に達します。
・Infinityアーキテクチャ – 最新のAMD Instinct製品は、第3世代のInfinityファブリックを採用しており、旧世代よりも大幅に向上しています。MI200シリーズは、 AMD Instinct™ MI250(またはMI250X)アクセラレータのGPU P2PまたはI/O用に最大8つの外部 Infinity Fabric™ リンクを提供し、最大800GB/秒の理論総帯域幅を実現し、前世代製品(3)のGPU P2P(またはI/O)理論帯域幅性能の最大235%を提供します。
結論
AMDは現在、EPYCおよびInstinctプロセッサとアクセラレータにより、最も効率的なスーパーコンピューターのいくつかを駆動しています。Green500は、毎年2回、1ワット当たりのパフォーマンスを測定し、エネルギー効率によってスーパーコンピューターの業界ランキングを決定するものです。AMDは、最新の2023年6月のGreen500リストで2位から7位を維持しています。これは、AMDのCPUおよびGPUテクノロジーが、最も強力なスーパーコンピューターを提供するだけでなく、このリストで最もエネルギー効率の高いスーパーコンピューターを提供していることの証です。
将来のコンピュート・マイルストーンである「ゼータスケール」を達成するためには、システム・レベルの向上を加速させるために、アーキテクチャ、メモリ、相互接続に関する次のレベルの考え方が必要です。AMDは、重要な部分を新しいアクセラレータに統合する第一歩を踏み出しました。このアクセラレータには、 AMD EPYC™ CPU と AMD Instinct™ アクセラレータの長所が含まれており、従来のMI250設計よりもさらに世代を超えた効率と性能の向上を目指しています。MI300と呼ばれるこの新しいAMD Instinctアクセラレータは、CPU + GPU + 共有HBMを組み合わせた世界初の統合型データセンターAPUとなり、将来のエクサスケールAIおよびHPCスーパーコンピューターに電力を供給する画期的なアーキテクチャを提供します。MI300のモノリシックな統合は、今述べたすべてのアプローチを活用し、従来のMI250設計よりもさらに大きな世代効率の向上を達成するものです。
結論として、コンピューターのエネルギー効率を長期的に改善することは、高性能コンピューター、スーパーコンピューター、データセンターの運用コストを削減し、持続可能性の目標を推進する上で重要です。AMDインスティンクト・グループは、デバイスおよびシステム・レベルでワットあたりの性能に取り組むことで、計算効率を向上させ、HPCおよびAI向けのデータセンターの持続可能性を推進することを目指しています。
注意事項
このブログには、AMD Instinct™ MI300アクセラレータの期待される機能や利点、AMDの2025年までに30倍のエネルギー効率を実現するという目標など、将来の見通しに関する記述が含まれており、これらは1995年私募証券訴訟改革法のセーフハーバー条項に従って作成されています。将来の見通しに関する記述は、一般的に「だろう」、「かもしれない」、「期待する」、「考える」、「計画する」、「意図する」、「計画する」などの言葉や、同様の意味を持つ他の用語で識別されます。本ブログに記載されている将来の見通しに関する記述は、現在の信念、仮定、予想に基づくものであり、本ブログの日付時点のものであり、実際の結果が現在の予想と大きく異なる可能性のあるリスクや不確実性を含んでいることにご注意ください。このような記述は、特定の既知および未知のリスクおよび不確実性の影響を受けますが、その多くは予測することが困難であり、一般的にAMDの制御を超えるものであるため、実際の結果およびその他の将来の事象が、将来見通し情報および記述で表明された、または暗示もしくは予測されたものとは大きく異なる可能性があります。投資家の皆様におかれましては、AMDのForm 10-KおよびForm 10-Qに関する最新の報告書を含むがこれに限定されない、AMDの証券取引委員会提出書類に記載されているリスクおよび不確実性を詳細にご確認ください。AMDは、法律で義務付けられている場合を除き、本ブログに記載されている将来の見通しに関する記述を更新する義務を負わず、またここに否認します。
こちらの記事はAMD本社のブログ記事を機械翻訳したものです。詳しくは元記事をご覧ください。
脚注:
- MI200-01: 世界最速のデータセンター向けGPUはAMD Instinct™ MI250Xです。2021年9月15日現在、AMDパフォーマンス・ラボがAMD Instinct™ MI250X(128GB HBM2e OAMモジュール)アクセラレータをピーク・ブースト・エンジン・クロック1,700 MHzで計算した結果、ピーク理論倍精度(FP64マトリックス)が95.7 TFLOPS、ピーク理論倍精度(FP64)が47.9 TFLOPS、ピーク理論単精度(FP32マトリックス)が95.7 TFLOPS、ピーク理論単精度(FP32マトリックス)が47.9 TFLOPSとなりました。 7TFLOPSピーク理論単精度マトリクス(FP32 Matrix)、47.9TFLOPSピーク理論単精度(FP32)、383.0TFLOPSピーク理論半精度(FP16)、および383.0TFLOPSピーク理論Bfloat16形式精度(BF16)の浮動小数点性能が得られました。AMD Instinct™ MI100(32GB HBM2 PCIe®カード)アクセラレータのピーク・ブースト・エンジン・クロックが1,502 MHzの場合、AMD Performance Labsが2020年9月18日時点で実施した計算では、ピーク理論倍精度(FP64)が11.54 TFLOPS、ピーク理論単精度マトリックス(FP32)が46.1 TFLOPS、ピーク理論単精度(FP32)が23.1 TFLOPS、ピーク理論半精度(FP16)が184.6 TFLOPSの浮動小数点演算性能を示しました。MI200-39: AMD Instinct™ MI250X(128GB HBM2e OAMモジュール)500Wアクセラレータを1,700 MHzピーク・ブースト・エンジン・クロックで使用した場合、AMDパフォーマンス・ラボが2021年9月15日時点で実施した計算では、ピーク理論倍精度(FP64マトリックス)95.7 TFLOPS、ピーク理論倍精度(FP64ベクトル)47.9 TFLOPSの浮動小数点演算性能が得られました。AMD Instinct MI100(32GB HBM2 PCIe®カード)アクセラレータのピーク・ブースト・エンジン・クロックは1,502 MHzで、ピーク理論倍精度(FP64マトリックス)11.5 TFLOPS、ピーク理論倍精度(FP64ベクトル)11.5 TFLOPSの浮動小数点演算性能を実現しました。
- MI200-27: AMD Instinct™ MI250Xアクセラレータは、220個のコンピュート・ユニット(CU)と14,080個のストリーム・コアを搭載しています。AMD Instinct™ MI100アクセラレータは、120個のコンピュート・ユニット(CU)と7,680個のストリーム・コアを搭載しています。MI200-30: AMD Instinct™ MI250XおよびMI250アクセラレーター(OAM)について、2021年10月18日現在、AMDパフォーマンス・ラボがCDNA™ 2 6nm FinFETプロセス・テクノロジーを採用し、ピーク・メモリー・クロック1,600 MHzで設計した場合の計算結果は、メモリ容量128GB HBM2e、ピーク理論メモリ帯域幅性能3.2768 TFLOPSでした。MI250X/MI250メモリ・バス・インターフェースは8,192ビット、メモリ・データ・レートは最大3.20Gbpsで、総メモリ帯域幅は3.2768TB/秒。AMDパフォーマンス・ラボによる2021年10月18日時点の計算では、AMD CDNA 7nm FinFETプロセス・テクノロジーを使用して設計されたAMD Instinct™ MI100アクセラレータのピーク・メモリー・クロックは1,200 MHzで、32GB HBM2メモリ容量、ピーク理論メモリ帯域幅性能は1.2288 TFLOPSでした。MI100メモリ・バス・インターフェースは4096ビットで、メモリ・データ・レートは最大2.40Gbps、総メモリ帯域幅は1.2288TB/秒です。
- MI200-13: 2021年9月18日時点の計算。AMD Instinct™ MI250は、AMD CDNA™ 2テクノロジー・アクセラレーター上に構築され、AMD Infinity Fabric™テクノロジーをサポートし、AMD Infinity Fabricリンクあたり最大100GB/秒ピークの理論上の総トランスポート・データGPUピアツーピア(P2P)帯域幅を提供し、最大8つのリンクを含み、GPU OAMカードあたり最大800GB/秒ピークの理論上の総GPU(P2P)トランスポート・レート帯域幅性能を提供します。AMD Instinct™ MI100は、AMD CDNAテクノロジー・アクセラレーターで構築され、PCIe® Gen4をサポートし、カード1枚あたりCPUからGPUへのピーク理論値で最大64GB/秒のトランスポート・データ帯域幅を提供し、GPUカード1枚あたりピーク理論値で最大276GB/秒のGPU P2Pトランスポート・レート帯域幅性能を提供する3つのリンクを含みます。PCIe Gen4のサポートと組み合わせることで、最大340 GB/秒のGPUカードI/Oピーク帯域幅を提供します。サーバーメーカーにより、提供される構成が異なる場合があります。MI200-13″