AMDは初のスモール・ランゲージ・モデル「AMD-135M」を発表
2025-04-25更新

人工知能(AI)の絶えず進化する世界では、GPT-4やLlamaのような大規模言語モデル(LLMs)が自然言語処理や生成能力において注目を集めています。しかし、小規模言語モデル(SLMs)はAIモデルのコミュニティにおいて重要な補完役として浮上し、特定の用途において独自の利点を提供しています。この度、AMDはSpeculative Decoding技術を搭載した初の小規模言語モデル「AMD-135M」を発表しました。この取り組みは、AIへのオープンなアプローチに対するAMDのコミットメントを示すものであり、より包括的で倫理的かつ革新的な技術進歩を実現します。これによりAIの利点がより広く共有され、課題が協力して解決されることを目指しています。AMD-135M: AMD初の小規模言語モデルAMD-135Mは、AMDが初めて開発した小規模言語モデルで、AMD Instinct™ MI250アクセラレータ上で6700億トークンを用いてゼロから学習されました。モデルは、「AMD-Llama-135M」と「AMD-Llama-135M-code」の2種類に分かれています。
事前学習: AMD-Llama-135Mモデルは、一般データ6700億トークンを使用し、MI250ノード4台で6日間かけてゼロから学習されました。 コード微調整: AMD-Llama-135M-codeは、コードデータの200億トークンを追加で使用して、同じハードウェアで4日間かけて微調整されました。
これらのモデルの学習コード、データセット、重みはオープンソースとして公開されており、開発者が再現したり、他のSLMsやLLMsを訓練する際に活用することができます。
Speculative Decodingによる最適化
大規模言語モデル(LLMs)は通常、推論(インファレンス)にオートレグレッシブなアプローチを使用しますが、この方法には各フォワードパスで1つのトークンしか生成できないという大きな制約があります。この制限により、メモリアクセスの効率が低下し、全体的な推論速度に影響を与えます。
Speculative Decodingの登場により、この問題が解決されました。この手法の基本原理は、小型のドラフトモデルを使って候補となるトークンを生成し、それを大きなターゲットモデルが検証するというものです。これにより、各フォワードパスで複数のトークンを生成することが可能となり、パフォーマンスを損なうことなくメモリアクセスの消費を大幅に削減し、推論速度を数桁改善できます。
推論パフォーマンスの加速
データセンター向けのMI250アクセラレータとAI PC用のRyzen™ AIプロセッサ(NPU搭載)で、AMD-Llama-135M-codeをCodeLlama-7bのドラフトモデルとして使用して推論性能をテストしました。特定の設定で、AMD-Llama-135M-codeをドラフトモデルとして使った場合、Speculative Decodingを用いない推論と比べて、Instinct MI250アクセラレータ、Ryzen AI CPU、およびRyzen AI NPUの速度が向上しました。AMD-135M SLMは、選択されたAMDプラットフォームでトレーニングと推論の両方を含むエンドツーエンドのワークフローを実現します。
次のステップ
AMDはオープンソースのリファレンス実装を提供することで、AIの能力を進化させるだけでなく、AIコミュニティ内での革新を促進しています。AMD-135Mに関する詳細は、技術ブログ「Introducing the First AMD SLM (Small Language Model): AMD-135M Model Fuels AI Advancements」をご覧ください。
追加のリソース
- このモデルのトレーニング、推論、およびインサイトに関する情報については、AMDのGithubリポジトリを訪問してコードにアクセスしてください。
- Hugging Faceのモデルカードを訪問してモデルファイルをダウンロードしてください。
- AMD Developer CloudでInstinctアクセラレータカードのアクセス申請を行ってください。
- ご質問がある場合は、amd_ai_mkt@amd.com までメールでお問い合わせください。