GigaIOとAMD: AIワークロードの効率化、スケーラビリティの向上、迅速な展開を実現

2024-09-23更新

  • twitter
  • facebook
  • line

私は常に、イノベーションには協力が不可欠だと理解している人々から学ぶことを楽しんでいます。GigaIOのCEOであるアラン・ベンジャミン氏も、その一人です。AIや高度な計算処理向けのインフラを提供する企業であるGigaIOは昨年、SuperNODEというシングルノードサーバーに32基のAMD Instinct MI210アクセラレーターを搭載し、大きな注目を集めました。従来、32基のGPUにアクセスするには、8基ずつGPUを搭載した4台のサーバーが必要な上、余分なハードウェアを接続するコストや遅延も課題でした。私は最近、アラン氏と「AMD EPYC TechTalkポッドキャスト・シリーズ」のために話す機会があり、そのインタビューのハイライトをこのブログ記事で紹介しています。

ジェネレーティブAIの急成長に伴い、企業は日々膨大な情報を収集、保存、分析しており、その結果、より高度なコンピューティング(HPC)への需要が高まっています。その結果、データセンターはより高いストレージと性能要件に対応するための新しいインフラを導入せざるを得なくなっています。しかし、HPCシステムの大規模化には多くの複雑さが伴い、時間もコストもかかります。また、これらのシステムを統合する際には、利用効率や応答速度が低下する可能性のあるボトルネックが生じることもあります。

カリフォルニア州カールスバッドに本社を置くGigaIOは、マルチCPUシステムに伴うコスト、消費電力、レイテンシの増加を解消する、アクセラレータ技術を拡張するためのシステムを提供しています。SuperNodeに加え、GigaIOはラック・スケールのリソースを構成するダイナミック・メモリ・ファブリックであるFabreXを提供しています。GigaIOは分散型コンポーザブル・インフラストラクチャ(DCI)を通して、データセンターがコンピュートとストレージのリソースを解放し、クラスタ全体で共有することを可能にします。


GigaIOは、単に企業がコンピューティングリソースからより多くの価値を引き出す支援をするだけでなく、高性能を超えた価値を提供するために取り組んできました。

「絶対的なパフォーマンスよりも重要なのは、いかに簡単にシステムのセットアップや管理ができるかです。私たちは、カンファレンスやトレーニング領域で活動する多くの企業が簡単にスケールアップできる方法を求めていると知り、SuperNODEを提供しています。既存のコンテナをSuperNODEに導入するだけで、さらなるGPUの恩恵を受けられます」

この約束を果たすため、GigaIOはAMDと協力し、TensorFlowやPyTorchのライブラリを含むSuperNODEのハードウェアとソフトウェアスタックを設計しました。アプリケーションは書き換えることなく、SuperNODE上で実行できます。


AMD Infinity Hubに掲載されている最適化されたコンテナは、4つまたは8つのGPUを搭載したサーバー向けに特化されています。ほとんどの場合4倍、あるいはそれに近いパフォーマンスの向上を得ることができます。

GigaIOは、エンジニアリングや科学分野におけるHPC(高性能コンピューティング)のニーズに応える形で発展しました。これらの分野では、当初CPUベースの計算が中心でしたが、次第にGPUの使用が増え、より多くのGPUを結びつける必要性が高まったのです。


HPC市場の方向性について、アラン氏はAIと大規模言語モデルがもちろん多くの成長を生み出してきたと語った。しかし最近GigaIOは、人間のパフォーマンスを向上させるためにAIを採用するオーグメンテーションの分野で勢いを見せている。ビジネスリーダーは今、AIを日常的かつ実用的に活用しようとしている。

 

これを達成するため、企業は基礎的なAIモデルを用いつつ、独自のデータでそれらを強化するために、アラン氏が「再トレーニングと微調整のプロセス」と呼ぶ手法を採用しています。

アラン氏は、GigaIOとAMDの協力関係が、8GPUサーバーの制限を打破する上で決定的な要因だったと語ります。多くの人が実現可能かどうか懐疑的でしたが、両社のパートナーシップによりこの成功が達成されたことを証明しました。

そのポイントを説明するためにアラン氏は、モリッツ・レーマン博士が 昨年、着陸速度のコンコルドの翼上の気流をシミュレートするために設計された、計算流体力学パッケージでSuperNODEをテストした ときの話をしました。SuperNODEへのアクセス後、レーマンはコードを1行も変更することなく、32時間以内にモデルを構築しました。従来のハードウェアを使用し、8つのGPUに頼った場合、アラン氏はこの作業に1年以上を要したと見積もっていました。

AMDのGPUとCPUを組み合わせた素晴らしい例です。「このようなコラボレーションは繰り返し行われてきました。技術的な問題を特定し、それを解決するために、エンジニアリングレベルで非常に優れた取り組みが行われてきました」

一覧に戻る