第4世代 AMD EPYC™ プロセッサーは、AIのワークロードに卓越したパフォーマンスを提供

2023-04-14更新

AIアルゴリズムは、受信トレイから迷惑メールを削除したり、興味のある映画を提案したりと、私たちの日常生活に浸透し、必要不可欠なものとなりつつあります。AIは半導体業界に大きな変化をもたらす存在であり、AMDはAIに対して注力し、その進化を加速させています。

AMD ZenDNNを使用した世代間交流

複雑なAI推論エンジンを使用しているいくつかのAMDのお客様は、すでに第4世代 AMD EPYC™ プロセッサーが提供する高い性能と、AMD Zen Deep Neural Network（ZenDNN）v4.0ライブラリーによるターゲット・ソフトウェアの最適化を活用しています。これにより、一部のアプリケーションで性能が向上しています。ZenDNNは、ニューラルネットワークの概念をソフトウェアで実現するためのフレームワークを実装するAPIを含むライブラリーです。これらのAPIは、 AMD EPYC™ プロセッサー上での推論に有効なようにチューニング、最適化されています。コンピュータビジョン、自然言語処理（NLP）、推薦システムなどのターゲットアプリケーションは、TensorFlow、ONNX Runtime、PyTorchなどの人気のあるAIフレームワークに統合されています。これらのアプリケーションは、以下でご覧いただく複数のベンチマーク結果に示されるように、すばらしいパフォーマンスを発揮します。

このセクションでは、4つの代表的なAIベンチマークワークロードを紹介します： TPCx-AI、ResNet-50、BERT-Large、およびDLRMです。TPCx-AIは、幅広いエンドツーエンドのAIワークフローを表し、他の3つのワークロードは、画像分類、自然言語処理、推薦エンジンという最も一般的なAIユースケースを表しています。これらのユースケースは、第4世代 AMD EPYC™ プロセッサーとZenDNN 4.0ライブラリーの緊密な統合による性能向上を示しています。

TPCx-AI

TPCx-AIベンチマークは、今日のデータセンターおよびクラウド環境に関連するAIワークロードの動作のエミュレーションに焦点を当てており、AIと AMD EPYC™ プロセッサー、データセンターが一緒に語られる場所では、世界記録結果が重要になります。AMDはDell Technologiesと共同で、スケールファクターSF3、SF10、SF30、SF100、SF300の第4世代 AMD EPYC™ プロセッサーを搭載したシステムで5つの新しいTPCx-AI世界記録結果を発表しました[1]。スケールファクターSF3、SF30、SF100、SF300の結果は業界初、SF10の結果は業界最高の結果となっています。これらの記録は、第4世代 AMD EPYC™ プロセッサーがAI市場に向けて発揮する最先端の性能を表しています。なお、図1に示した性能は、AI/ML Performance Highlightsに記載されているいくつかの異なるシステム構成を反映しています。

図1：AMD EPYC TPCx-AIの性能と価格/性能

ResNet-50

ResNetとは、Residual Neural Networkの略称です。画像分類用の人工ニューラルネットワーク（ANN）やコンピュータビジョン用の畳み込みニューラルネットワーク（CNN）の一種と説明されています。ResNet-50は、一般的なResNetを50層化したもので、画像分類や、ImageNetなどの画像データセットを用いた学習に使用され、学習したモデルを推論に使用することができるようになります。AMDは、resnet50_fp32_pretrained_model.pb（FP32）モデルを2つのシステムで実行しました。このモデルは、2015年のImageNetコンペティションで優勝し、画像の分類によく使用されているものです。

以下に示すように、第4世代 AMD EPYC™ システムは、バッチサイズ640で1秒間に～919.52枚、バッチサイズ960で1秒間に～927.42枚の画像を処理し、第3世代 AMD EPYC™ システムに対してそれぞれ～2.10倍、～2.09倍の世代間性能アップが実現しました。図2に示す結果は、3回の実行の平均値です[2]。

図2：AMD ZenDNN 4.0によるResNet-50の世代交代による性能向上

BERT-ラージ

Bidirectional Encoder Representations for Transformers（BERT）は、様々な自然言語処理タスクに使用される深層学習モデルです。BERT-largeは、3億4000万個のパラメーターを持つBERTの亜種で、WikipediaとBook Corpus全体のラベルなしテキストの非常に大きなコーパスを使用して事前にトレーニングされていますが、特定のタスクのために追加のチューニングが必要です。AMDのエンジニアは、第3世代と第4世代の AMD EPYC™ システムの相対的な性能を評価するために、上記のシステムでwwm_uncased_L-24_H-1024_A-16（FP32）モデルを実行しました。以下に示すように、第4世代 AMD EPYC™ システムは1秒間に28.74サンプル（シーケンス長=256）、1秒間に18.65サンプル（シーケンス長=384）を処理し、第3世代 AMD EPYC™ システムに対してそれぞれ約1.83倍、約1.82倍の世代交代が図られた計算になります。図3の結果は、それぞれ3回実行した平均値です[2]。

図3：AMD ZenDNN 4.0を使用したBERT-Large世代のパフォーマンスアップ

デジタルループ

Deep Learning Recommendation Model (DLRM)は、Meta社のオープンソースのモデルです。DLRMは、入力層、隠れ層、出力層を持つ多層パーセプトロン(MLP)を使用しています。PyTorchとCaffe2フレームワークの両方をサポートし、人気のあるMLPerf™ Inference benchmark suiteの一部でもあります。Facebookが提供するこのレコメンダーシステムは、機械学習を使用して、Facebookの研究に基づいた推奨を行います。AMDのエンジニアは、MLPerf™ DLRMモデルであるtb00_40M.pt (90GB FP32)を実行しました。以下に示すように、これらの非公式かつ未発表の結果は、第4世代 AMD EPYC™ システムがバッチサイズ1で毎秒2948.38サンプル、バッチサイズ2で毎秒3132,42サンプルを処理し、第3世代 AMD EPYC™ システムに対してそれぞれ～1.72倍、～1.83倍の世代間性能アップが見られたことを示しています。図4に示した結果は3回実行した平均値です。[2]

図4：AMD ZenDNN 4.0を使用したDLRMの世代別性能アップ

コンペティティブ・パフォーマンス・アップリフト

図5に示すように、第4世代 AMD EPYC™ プロセッサーは、以下のAI/ML CPUベースの推論ワークロードにおいて、競争力のある素晴らしい性能向上を示しています：

ResNet50：AMDのエンジニアは、Neural MagicのResNet-50v1.5 DeepSparse INT8モデルを複数のプラットフォームでプリトレーニングし、ImageNetでのCPUのみの推論性能を評価しました[2]。

BERTラージ： AMDは、Neural Magicの事前学習済みBERT-large DeepSparse INT8モデルを複数のプラットフォームで実行し、Stanford Question Answer Database（SQuAD）を使用して質問に答える際のCPUのみの推論性能を評価しました[2]。

Yolo v5： You Only Look Once (YOLO)は、画像をグリッドに分割し、各グリッドセルがそれ自体の中のオブジェクトの検出を担当する、高速で正確なオブジェクト検出アルゴリズムです。Neural Magic社のプリトレーニング済みYOLOv5 DeepSparse INT8モデルを複数のプラットフォームで実行し、Common Objects in COntext（COCO）を用いたCPUのみの推論性能を評価しました[2]。

図5：AI/MLパフォーマンス競争力のあるパフォーマンスアップ

結論

このブログで紹介するさまざまな性能結果は、AI分野を紹介し、第4世代 AMD EPYC™ プロセッサーがAIワークロードのためにお客様に提供するカバー範囲の広さを実証しています。

Raghu Nambiarは、AMDのデータセンター・エコシステムズ＆ソリューション担当コーポレート・バイスプレジデントです。彼の投稿は彼自身の意見であり、AMDの立場、戦略、意見を代表するものではない場合があります。第三者のサイトへのリンクは便宜上提供されているものであり、明示されていない限り、AMDは当該リンク先サイトのコンテンツに責任を負わず、いかなる推奨も示唆されません。

脚注：

TPCx-AIの結果は以下に掲載しています。
・https://www.tpc.org/tpcx-ai/results/tpcxai_result_detail5.asp?id=122110801
・https://www.tpc.org/tpcx-ai/results/tpcxai_result_detail5.asp?id=122110802
・https://www.tpc.org/tpcx-ai/results/tpcxai_result_detail5.asp?id=122110803
・https://www.tpc.org/tpcx-ai/results/tpcxai_result_detail5.asp?id=122110804
・https://www.tpc.org/tpcx-ai/results/tpcxai_result_detail5.asp?id=122110805
https://www.amd.com/system/files/documents/amd-epyc-9004-pb-aiml.pdf に、詳細を掲載しています。

こちらの記事はAMD本社のブログ記事を機械翻訳したものです。詳しくは元記事をご覧ください。

一覧に戻る

第4世代 AMD EPYC™ プロセッサーは、AIのワークロードに卓越したパフォーマンスを提供

AMD ZenDNNを使用した世代間交流

TPCx-AI

ResNet-50

BERT-ラージ

デジタルループ

コンペティティブ・パフォーマンス・アップリフト

結論

ハイブリッドワーク時代に役立つNECのモバイルPC

10万円台から購入できる高コスパモバイルAMD Ryzen™ 5000シリーズ搭載「ThinkPad T14 Gen2」を検証

第4世代 AMD EPYC™ プロセッサーは、AIのワークロードに卓越したパフォーマンスを提供

AMD ZenDNNを使用した世代間交流

TPCx-AI

ResNet-50

BERT-ラージ

デジタルループ

コンペティティブ・パフォーマンス・アップリフト

結論

関連記事

AIの未来を切り拓く：AMD ROCm 7 と AMD Developer Cloud のご紹介

Dell Technologies と AMD：次世代AIを支えるパワフルなパートナーシップ

多ければいいというわけではない：現代のワークロードにおけるメモリ選択の再考

AIパフォーマンス最大化：レイテンシ制約のある推論サービスにおけるAMD EPYC 9575F CPUの役割

AMD デベロッパークラウドのご紹介

AMD Instinct MI350シリーズとその先：AIとHPCの未来を加速する

AMD ROCm™ 6.2の最新リリースで次世代AIとHPCパフォーマンスを解き放つ

Radeon™対応のAMD ROCm™ 6.1、AI開発者にさらなる選択肢を提供