AMD ROCm™ 6.2の最新リリースで次世代AIとHPCパフォーマンスを解き放つ

2025-04-25更新

  • twitter
  • facebook
  • line

AI愛好者、データサイエンティスト、開発者、そしてハイパフォーマンスコンピューティング専門家の皆さんへ!AMD ROCm 6.2の最新リリースが登場しました。このリリースには、計算タスクを向上させるための革新的な強化が盛り込まれています。最先端のAIモデルに取り組む人、次世代AIアプリケーションを開発する人、複雑なシミュレーションを最適化している人にとって、この新しいリリースは驚異的なパフォーマンス、効率、そしてスケーラビリティの向上をもたらします。このブログでは、このリリースを変革的なものにする5つの主要な強化点について詳しく紹介します。

 

  • ROCm 6.2でのvLLMサポートの拡張 – AMD Instinct™アクセラレータのAI推論機能を向上 AMDは、AMD Instinct™アクセラレータ上でAIモデルの効率とスケーラビリティを向上させるため、vLLMサポートを拡充しています。大規模言語モデル(LLM)向けに設計されたvLLMは、効率的なマルチGPU計算、メモリ使用量の削減、計算ボトルネックの最小化など、推論における主要な課題に対応します。お客様はROCmドキュメントの手順に従って、マルチGPU実行やFP8 KVキャッシュなどの機能を有効にできます。最先端の性能を利用するため、ROCm/vLLMブランチのFP8 GEMMやカスタムデコードページドアテンションなどの機能も利用可能です。Gitリポジトリのクローン時にrocm/vllmブランチを選択し、これらの機能を有効化できます。専用のDockerファイルを通じても使用可能です。
    ROCm 6.2のリリースにより、既存および新規のAMD Instinct™ユーザーは、AIパイプラインにvLLMを統合し、パフォーマンスと効率の向上を実現できます。


  • ROCmにおけるBitsandbytes量子化サポート – メモリ効率とパフォーマンスを向上させ、AMD Instinct™でAIトレーニングと推論を強化 AMD ROCmによるBitsandbytes量子化ライブラリのサポートは、メモリ効率とパフォーマンスを大幅に向上させ、AI開発に革新をもたらします。8ビットオプティマイザを活用することで、AIトレーニング時のメモリ使用量を削減し、限られたハードウェアでも大きなモデルを扱うことが可能になります。LLM.Int8 量子化は、少ないメモリでLLMを効果的に展開できるよう最適化されています。低ビット量子化により、AIトレーニングと推論の両方を高速化し、全体的な効率と生産性を向上させます。
    Bitsandbytesは、メモリおよび計算負荷を軽減することで、先進的なAI機能をより多くのユーザーに提供し、コスト削減を実現し、AI開発を民主化します。また、既存のハードウェア制約内でより大きなモデルを効率的に管理しつつ、32ビット精度に近い正確さを維持します。
    開発者は、このリンクの手順に従い、AMD Instinct™ GPUアクセラレータ上でBitsandbytesをROCmに統合し、メモリおよびハードウェア要件を削減しつつ、効率的なAIトレーニングと推論を実現できます。


  • 新しいオフラインインストーラクリエーター – ROCmインストールの簡素化 ROCmオフラインインストーラクリエーターは、インターネット接続やローカルリポジトリがないシステムでも、ROCmを簡単にインストールできるようにするツールです。このツールは、必要な依存関係を含む単一のインストーラファイルを作成し、GUIを使ってROCmコンポーネントとバージョンを簡単に選択してデプロイできるようにします。複数のインストールツールを統合し、インストールの効率性と一貫性を向上させます。また、ユーザーグループ管理やドライバ処理などのポストインストールタスクを自動化し、正確かつ一貫性のあるインストールを支援します。

Ronak_Shah_0-1722888071008.png

AMDリポジトリやOSパッケージマネージャからすべての関連ファイルをダウンロードおよびパッケージ化することで、ROCmオフラインインストーラクリエーターは、インストールが正確かつ一貫して行われることを保証し、エラーのリスクを減らし、システム全体の安定性を向上させます。インターネット接続がないシステムに理想的で、IT管理者にとってもROCmの展開をより簡単かつ効率的にするプロセスを提供します。これにより、さまざまな環境でのROCmのデプロイがこれまで以上に容易になります。

新しいOmnitraceおよびOmniperfプロファイラツール(ベータ版)は、AMD ROCmにおけるAIおよびHPC開発を革命的に変えるために設計されています。Omnitraceは、CPU、GPU、NIC、ネットワークファブリック全体のシステムパフォーマンスを包括的に把握することで、開発者がボトルネックを特定して適切に対処できるようにします。一方、Omniperfは詳細なGPUカーネル分析を提供し、性能を細かく調整します。これらのツールを組み合わせることで、アプリケーション全体と計算カーネルの両方のパフォーマンスを最適化し、リアルタイムでのパフォーマンス監視をサポートします。これにより、開発者は開発プロセス全体を通じて、情報に基づいた判断と調整を行うことが可能になります。

Ronak_Shah_1-1722888071020.png

 

Ronak_Shah_2-1722888071029.png

FP8サポートの拡充 – ROCm 6.2によるAI推論の強化

ROCmにおけるFP8サポートの拡充により、特に推論においてAIモデルの実行プロセスが大幅に向上します。メモリのボトルネックや高精度フォーマットに伴う高レイテンシといった課題に対応し、同じハードウェア制約内でより大きなモデルやバッチを処理できるようにすることで、より効率的なトレーニングと推論が可能になります。また、FP8の低精度計算により、データ転送と計算にかかるレイテンシを減少させます。

ROCm 6.2では、フレームワークからライブラリまでエコシステム全体でFP8サポートが拡大され、性能と効率が向上しました。

  • Transformer Engine: PyTorchおよびJAXにおいて、HipBLASLt経由でFP8 GEMMのサポートを追加し、FP16/BF16と比較してスループットを最大化し、レイテンシを削減
  • XLA FP8: JAXとFlaxがXLA経由でFP8 GEMMをサポートし、パフォーマンスを向上
  • vLLM統合: vLLMにFP8機能を組み込み、さらなる最適化を実現
  • FP8 RCCL: RCCLがFP8専用の集団演算をサポートし、柔軟性を向上
  • MIOPEN: FP8を用いたFused Flash Attentionをサポートし、効率を強化
  • 統一FP8ヘッダー: ライブラリ間でFP8ヘッダーを標準化し、開発と統合を簡素化

ROCm 6.2のリリースにより、AMDはAIおよびHPCコミュニティに対し、堅牢で競争力のある革新的なソリューションを提供するというコミットメントを引き続き示しています。このリリースにより、開発者は限界を押し広げるためのツールとサポートを手に入れ、次世代の計算タスクに向けて自信を持って取り組むことができます。これらの進化を活用し、プロジェクトを未曾有の性能と効率のレベルへと引き上げましょう。

ROCm 6.2で導入された新機能の詳細については、リリースノートをご覧ください。

ROCmの包括的なドキュメントページもお見逃しなく。ROCmの可能性を最大限に引き出すための詳細な洞察や貴重なリソースが提供されています。最近更新されたコンテンツと改善点により、最新情報をすぐに確認できます。

寄稿者

  • Ronnie Chatterjee – プロダクトマネジメントディレクター
  • Saad Rahim – ソフトウェア開発エンジニア(SMTS)
  • Jayacharan Kolla – プロダクトマネージャー
  • Aditya Bhattacharji – ソフトウェア開発エンジニア

 

一覧に戻る