「スーパーコンピューター・アクセプタンス」とは何か?

AMD EPYC™ プロセッサー

2023-11-09更新

  • twitter
  • facebook
  • line

スーパーコンピューターの開発に精通するAMD

AMDはスーパーコンピューターの開発に精通しています。実際、AMDを搭載したスーパーコンピューターは、Top500リストの上位5位にある中の2つを占めています。また、その中には、世界をエクサスケール(1秒間に5億回または10^18回の浮動小数点演算を実行できるコンピューター)の時代に導いた最初のシステムも含まれており、2位のリストの約3倍のHPL(高性能LINPACK)スコアを保持しています。とはいえ、システムの計算能力を世界的な舞台で発揮させるまでにどれほどの苦労があるかは、あまり知られていません。このような巨大なシステムが本番ワークロードに「門戸を開く」までには、舞台裏で行われる膨大な作業があるのです。

スーパーコンピューターの主要なマイルストーンのひとつは、「アクセプタンス」と呼ばれるものです。ここでは、スーパーコンピューターがアクセプタンスされるまでの過程を説明し、その言葉の本当の意味を探っていきます。そして、AMDが世界で最も高性能なシステムの構築にどのように貢献しているのか、また、AMDが実現するサイエンスの一端をご紹介します。

プロセスの定義 – ac-cept-ance

要するに、アクセプタンスとは、完全にデプロイされたスーパーコンピューターが安定し、性能がスケーラブルになり、本番の研究に使える状態になった時点を指します。ただ、このプロセスには通常何ヶ月もかかるため、単純に定義するのは誤解を招くでしょう。ネットワーク、ファイルシステム、ハードウェア(コンピュートユニット)、キャビネットなどの統合前の作業は一切含まれません。このプロセスでは、多くの最適化とテストが行われます。システムは、アプリケーションを大規模に実行でき、パフォーマンスが高いことを証明する必要があります。例えば、LUMIシステムには何万ものコンポーネントがあり、AMD Instinct™ MI250X GPU(グラフィック・プロセッシング・ユニット)だけでも10,000個以上あります。これらのコンポーネントは、安定性とスケーラビリティを示すために、互いに調和するだけでなく、他のシステムコンポーネント(前述のファイルシステム、ネットワークなど)とも調和しなければなりません。

AMDはどのように受け入れに貢献するのか?

前述したように、これらのシステムを量産できるようにするためには、複数のチームによる多くの作業が必要です。この作業は、プロセッサーとアクセラレーターが出荷され、設置された後も止まりません。AMD、ハードウェア・ベンダー、サイト・ディレクター、初期ユーザーなどが共同で開発を行い、システムを安定させ、パフォーマンスを最適化します。この非常に統合されたプロセスにおいて、センター・オブ・エクセレンス(CoE)チームは、複数の施設で同時にミッション・クリティカルなアプリケーションを高速化するために、たゆまぬ努力を続けています。これらは地球上で最大級のシステムであり(例えば、フロンティア・システムには37k GPUが搭載されている)、単一のラボで単純にシミュレーションすることはできません。現場のトリアージ・チームと外部のサポート・チームは、システムから可能な限り最高のパフォーマンスを引き出すことに集中しています。まさに「オール・ハンズオン・デッキ」型のプロセスと言えるでしょう。多くのチームがこのような形で関与しているため、システムから最高のパフォーマンスを引き出すためのプロセスを完了するのに時間がかかることがあります。このステップでは、異質なグループや異なる企業間のコラボレーションが重要になってきます。

こうした巨大なシステムの規模が大きいということは、課題がないわけではありません。しかし、迅速に対応し、主要な利害関係者と協力して課題を解決する能力は、この段階では本当に重要なことです。チームには、研究を継続させるために、課題を迅速に解決する専門知識が必要です。AMDのエンジニアリング能力は、テクニカル・チームがボトルネックを解決する際、テクニカル・パートナーや顧客と密接に協力することで発揮されます。

受け入れ後の科学

システムを完全にデプロイして科学に開放するまでの苦労はすべて、人類最大の課題の解決に役立つ画期的な研究を可能にするために行われます。FrontierやLUMIのようなスーパーコンピューターがアプリケーションを展開する驚異的な規模は、HPC(ハイパフォーマンス・コンピューティング)やAI(人工知能)ワークロード向けのAMD Instinctアクセラレーター、 AMD EPYC™ プロセッサー、AMD ROCm™ソフトウェア・スタックの能力を証明しています。以下は、AMD Instinctアクセラレーターを搭載した世界最速および世界第3位のスーパーコンピューターであるFrontierおよびLUMIシステムですでに開始されている研究のほんの一例です。

CSCのLUMIシステム

ComPatAI
デジタル画像から癌の増殖を検出・診断できるプログラムを作成します。臨床ワークフローの効率化、診断の質の向上、パーソナライズされた診断と治療計画の作成を目標に、計算病理学を分析・シミュレートするAIモデルをトレーニングします。

デスティネーション・アース
地球の驚くほど詳細で高解像度のデジタル・レプリカを開発し、自然現象と人間活動の相互作用を監視・予測します。

気候DT(デジタルツイン)
地球の大気への影響に焦点を当てた地球のデジタルツインモデルです。

オークリッジ国立研究所のフロンティア・システム

核融合エネルギー研究
核融合プラズマのエネルギー損失を予測するシミュレーションを行い、次世代の核融合エネルギー炉のプラズマ性能の最適化を試みます。

エクサスター
恒星爆発のマルチフィジックスモデルを構築し、重力波によって空間と時間がどのようにゆがむのか、ニュートリノやその他の素粒子がどのように爆発で生成されるのか、原子核元素がどのように合成されるのかを理解するためのシステムです。

NWChemEx
化石燃料由来の炭化水素をバイオマスで生産できるものに置き換える方法を見つけるためのシステムです。

スーパーコンピューター・サイトがAMDを選ぶ理由とは?

AMDは半導体ビジネスにおけるハードウェアのイノベーターとして広く知られた存在です。 AMD Instinct MI250 GPU のようなアクセラレーターが、スペックシート上で印象的に見えることは周知の事実です。しかし、研究者や科学者が同じように、いや、それ以上に重要だと考えるもう1つのものがあります。 AMD ROCmは、オープンソースのソフトウェア・エコシステムで、改善点を把握し、より広範なコミュニティと共有することに取り組んでいます。

オープンソースコミュニティとのコラボレーションは、AMD ROCmプラットフォームの革新の原動力となっています。高速化コンピュートとヘテロジニアス・ワークロード開発に対するこの業界を差別化するアプローチは、ユーザーに驚異的な柔軟性、選択肢、プラットフォームの自律性を提供します。ツール、ガイダンス、洞察は、AMD ROCm GitHubコミュニティとフォーラムで自由に共有されています。新しく刷新されたドキュメント・サイトへのAMDの投資は、AMD Instinct GPUのパワーを活用するためにソフトウェアが重要な役割を果たす開発者コミュニティへのAMDの強いコミットメントを示しています。このようなソフトウェア開発へのアプローチにより、AMD ROCmスタックは急速に成熟し、現在ではアプリケーションカタログに90以上のアプリケーションが掲載されています。

AMDのハードウェア・エンジニアリング力と、HPCとAIの両分野の進歩をさらに推し進めるオープンソースのソフトウェア・エコシステムを組み合わせることで、AMDのプロセッサーとアクセラレーターを搭載したスーパーコンピューターは、地球上で最も強力なシステムの1つに数えられる性能を実現しました。

こちらの記事はAMD本社のブログ記事を機械翻訳したものです。詳しくは元記事をご覧ください。

一覧に戻る