AMD Instinct:スーパーコンピューティングの新時代に向けた高性能GPUアクセラレーションの挑戦
2023-01-23更新
GPU は、その誕生以来、グラフィックスレンダリング以外のタスクのためのアクセラレーターとして有望視されてきました。ゲーミングPCに搭載されるGPUと汎用アクセラレーターとして使用されるGPUは、基本機能がかなり重複していますが、これらのカードを計算ワークロード専用に最適化すると、多くの利点があります。単純な計算を大量に並列実行できるため、反復処理の恩恵を受けるあらゆるワークロードのパフォーマンスが大幅に向上します。GPUはスーパーコンピューティングの未来を導くものであり、エクサスケール時代に突入したのです。
ハードウェアの性能は優れたスーパーコンピュータの基礎となる
AMD Instinct™ アクセラレーターは、当初から計算集約型のアプリケーションに最適化するよう設計されています。AMD CDNA™ アーキテクチャーは、ゲームに特化した AMD RDNA™ アーキテクチャーから進化したものですが、HPC、AI、および機械学習の融合に拍車をかける画期的なアクセラレーションを実現することに特に重点を置いて開発されました。また、従来のGPUは、特にノードに複数個設置した場合、非常に多くの電力を消費するため、ワットあたりの性能指標も改善されています。AMD Infinity Fabric™ は、GPU間の超高速インターコネクトを提供し、システムに複数のGPUが搭載されている場合、よりシームレスに連携できるようにします。ROCm™ ソフトウェア環境は、アプリケーション開発のためのオープンプラットフォームを提供するために作成され、アプリケーションの移植性を簡素化することを目的としたHIPプログラミング環境とともに、アプリケーションの開発を可能にします。
しかし、ノード内で計算の高速化とマルチデバイスの相互接続のために作られたGPUは、ほんの始まりに過ぎません。スーパーコンピュータのエクサスケールの壁が破られた今、数千ノードに及ぶスケーリングの課題は、まったく新しい次元に突入しています。オークリッジ国立研究所(ORNL)のスーパーコンピュータ「フロンティア」は、これを実現するためにいくつかの重要な技術革新を必要としました。フロンティア は HPE Cray EX の大規模システムで、9,408 個のノードがあります。フロンティアは、64コアの第3世代 AMD EPYC™ CPU(物理コアあたり2スレッド)と512 GBのDDR4メモリで構成されています。また、各ノードには AMD MI250Xが4台ずつ搭載され、それぞれに2つのGraphics Compute Dies(GCD)が搭載されており、ノードあたり合計8つのGCDが搭載されています。
フロンティアが持つ1.5エクサフロップスを超える倍精度性能のポテンシャルを最大限に引き出すには、独自のアプローチが必要です。なぜなら、これほど多くのGPUを搭載したスーパーコンピュータはこれまで存在しなかったからです。
チップレベルのIOが優れた性能の鍵
AMDのテクニカルスタッフであるニコラス・マラヤ氏は、「前例のない規模だ」と語ります。
「我々は最初からフロンティアを非常にうまく拡張できるように設計しました。大きなハードウェアの革新の1つは、ネットワークコントローラがGPUに直接取り付けられていることです。 AMD Instinct MI250X GPU の新しいCDNA 2アーキテクチャーは、フロンティアのようなスーパーコンピュータで現在利用できる規模に特に対応する重要な機能拡張を導入しています。CDNAでは、ホスト・コンピューターとの接続にPCI Express®を採用し、同一ノード上のGPU間の通信には3本のAMD Infinity Fabricリンクを使用していましたが、CDNA 2では、Infinity Fabricの使用を拡大し、通信機能を追加しています。第3世代Infinity Fabricは、GPU内の2つのGraphics Complex Dies(GCD)を接続するために採用されています。また、従来通り、ノード内のGPU間の通信にも使用することができます。ただし、AMD Instinct MI250Xでは、Infinity FabricはホストCPUとの通信にも利用される。最後に、内蔵の200Gbits/secのネットワークインターフェイスをGPUに直接接続するPCI Expressインターコネクトがあるのです。」
クラスタレベルでの大規模なノード間IO
「GPUは、ローカルではInfinity Fabricを介して通信します。しかし、フロンティアに9,000台以上ある別のノードと通信する必要がある場合は、HPE SlingshotインターコネクトというEthernetベースの高速ネットワークを介して、内蔵のネットワーキングで通信します。ノード内では、すべてがコヒーレントです。すべてのGPUは、HPEのInfinity Fabricを通じて、共有メモリと直接通信することができます。ノード外では、MPIなどの業界標準の分散プログラミングモデルで通信します。
HPEのSlingshotネットワーキングへの直接リンクの他に、AMD Instinct MI250Xは、他のGPUがシステム上の他のGPUとしか接続できないのに対し、プロセッサへのInfinity Fabric接続により、CPUへのコヒーレントリンクも持っているのです。」
マラヤ氏は、「GPUで仕事をするのは大変なことです」と言います。「多くのアプリケーションはCPU上で動作していますが、MI250Xのコヒーレンスにより、研究者は自分の研究をGPU上で迅速に行うことができます。ハードウェアよりも高価な開発時間を節約することができるのです。
ソフトウェアサポートでIO機能を活用する
「これらの新機能を利用するためには、ソフトウェアの追加サポートが必要でした。GPUを意識したメッセージングができるようにROCmを拡張し、GPUからネットワークに直接メッセージを送れるようにしました」とマラヤ氏は語ります。
「この種のコンピュータでは、フロンティアが史上初の試みです。そのため、主に2つの分野を中心に、ソフトウェアの改良が必要でした。1つ目のMPI(Message Passing Interface)は、ネットワークを介してメッセージを送信するためのHPCにおける標準的なアプローチです。ROCm を拡張して、GPU とネットワークの間のレイテンシーが非常に低いリンクを実現し、大規模なシステムサイズでこれまで以上に優れたスケーリングを保証しています。また、ROCm Collective Communication Library (RCCL)にも拡張しています。これはHPEソフトウェアとのインターフェイスなので、パートナー企業と密接に連携して提供する必要があります。しかし、機械学習や人工知能(AI/ML)のワークロードを数千台のコンピュートノードにスケールアウトするための重要なソフトウェアライブラリーです。
科学的なアプリケーションは、GPUアクセラレーションによって大きな性能上の利点を得ることができるAI/MLの可能性をますます活用するようになっています。”フロンティアは、最初のエクサスケール・スーパーコンピューターと世界最大の計算機であるだけでなく、機械学習と人工知能訓練のための最高のプラットフォームでもあります。」とマラヤ氏は述べます。
「フロンティアは、AI/MLに重要な数値精度の生パフォーマンスを測定する2022年6月のHPL-AIベンチマークでも1位を獲得しました。これまで研究機関が機械学習に使用していた最大規模のシステムを見ると、通常1,000個程度のGPUしか搭載していません。フロンティアの37,000GPUは、AI/MLのモデルトレーニングを一変させることを可能にします。例えば、Googleの会話技術LaMDAは、1,000 Tensor Processor Unitsで51日間かけて学習させた。37,000個のGPUが並列に動作すれば、これを最短2日に短縮できる可能性があります。これは破壊的なイノベーションであり、まさに膨大な新しい可能性を開くものです。
AMD Instinct MI250Xの内蔵ネットワーキング・インターフェースは、AI/MLにこの新しいレベルの性能を提供するために非常に重要です。ハードウェア・ネットワーキングはMI250X独自のものです。私たちはすべてのInstinct GPUでROCmとMPIをサポートしていますが、フロンティアに導入されたMI250Xは、ネットワークがGPUに直接接続されているものなのです。これにより、レイテンシーを低減することができます。CPUとGPUの間のホップ数が少ないので、より効率的にネットワークを介してメッセージを送信することができます。これにより、これまで以上に多くのGPUに拡張できるようになります。AMDはその点で先を行っています。」
これを実現するには、RCCLやROCmドライバ内でのMPIの有効化など、ソフトウェア層も欠かせない。マラヤ氏は、「ソフトウェアを書き換えて、これまでよりもさらに効率的にすることができるようになりました」と述べています。
「もちろん、私たちも自分たちのコードをリファクタリングしていますが、科学者チームも、システムアーキテクチャーを活用するために自分たちのコードをリファクタリングする方法を学んでいます。
これは、2つのレベルで機能します。1つは、GPU上です。GPUは計算能力が非常に高いので、これまでよりも多くの仕事ができることが分かってきているのです。しかし、もうひとつの大きな問題は、これらのマシンでどのようにデータを移動させるかを考えることです。なぜなら、データの移動は、システムで使用されている電力の大部分を占めているからです。データの移動は、システムで使用される電力の大部分を占めます。データの移動を最小限に抑えることは、システムを最大限に活用するために非常に重要です。その意味するところを理解することで、非常に有益な研究論文を見ることができます。」
画期的な新しい研究への準備
科学への時間を加速させるこの能力は、すでに結果を出し始めています。ハイパフォーマンス・コンピューティング(HPC)の優れた業績に与えられるゴードン・ベル賞の2022年の最終候補者であるラマクリシュナン・カナン氏とジャン・リュック・ベイ氏は、その応募作品の一部または全部がフロンティアでの研究に基づいています。また、宇宙論や天気予報、分子動力学などの科学的なアプリケーションを開発するために、CAAR(Center for Accelerated Application Readiness)が設立されました。100ノードのテストノードとAMD Instinct MI250Xアクセラレーターが、配備に向けてリファクタリングされたコードの試用に使用されています。SC22 のゴードン・ベル賞の最終選考会では、バイオメディカル知識グラフ分析のエクサフロップ・デモンストレーションが初めて紹介され、フロンティア社は COAST でフルスケール1での Summit の 7 倍の性能向上を見込んでいます。 全体として、GPUのパワーを活用することにシフトしたことが、フロンティアが科学コミュニティーに提供するものをフルに活用するための重要な要因でした。
マラヤ氏は、「フロンティアの浮動小数点演算のうち、CPUで行っているのは1%以下です」と言う。「本当に大量の計算をしたいのであれば、GPUを使うしかないのです。GPUはオプションではありません。一般に、より多くの計算ワークロードがGPUと機械学習に移行しています。GPUを効果的に利用するための参入障壁を下げるためにできることは何でも、大きな利益をもたらします。特に有益なのは、ロード可能なデータセットのサイズです。フロンティアでは、各GPUに128GBのHBMを搭載しています。ORNLの以前のスパコンでは、GPUあたりのメモリが16GBだったので、AMD Instinctを搭載したフロンティアでは、GPUメモリが8倍になっています。そのため、より大きなデータセットをロードすることができ、それがメモリにストリーミングされるのを待つ必要がありません。すべてのワークロードを移動させることができるのです。
HPCや機械学習のワークロードをいくら開発者に提供しても、彼らはできるだけ早くGPUメモリをいっぱいにしてしまいます。それが彼らにとっては大きな限界なのです。従来は、メモリ容量が足りなくなると、計算ができなくなりました。フロンティアは、GPUあたりのメモリ量を段階的に変化させることで、この問題を否定しています。そして、各GPUは、ノードのメモリやそのノード上の他のGPUのメモリにコヒーレントに接続され、アクセス可能な空間がさらに拡張されます。また、内蔵されたネットワークにより、他の9,000以上のノードのメモリに分散アクセスすることができます。その結果、5ペタバイト近い巨大なアドレス空間が実現したのです。これによって、これまでアクセスできなかったフロンティアでの新しいサイエンスが可能になります」とマラヤ氏は説明します。
この巨大なメモリ空間は、特にAI/MLワークロードを解放するでしょう。研究者は、パラメータ数を指数関数的に増やすことができます。視覚や言語モデリングなどでは、超人的なまでにモデルを増やせることが分かっています。
フロンティア は今年オンラインになったばかりで、その可能性はまだ始まったばかりです。GPUの性能をスケールアップできるAMDのハードウェア・イノベーションと、それをサポートするために必要なソフトウェアの組み合わせは、研究のパラダイムをシフトさせました。より多くの作業をより短時間で完了できるだけでなく、以前は単に実現不可能だった新しいAI/MLアプリケーションを展開することができます。AMD Instinct GPUのスケーリング能力は、単なる性能の進化ではなく、計算機研究で可能なことの質的な飛躍を可能にします。
こちらの記事はAMD本社のブログ記事を機械翻訳したものです。詳しくは元記事をご覧ください。
参照:R. Kannan, et al., “Exaflops Biomedical Knowledge Graph Analytics,” in 2022 SC22: International Conference for High Performance Computing, Networking, Storage and Analysis (SC) (SC), Dallas, TX, US, 2022 pp. 61-71