2025年現在、AI画像生成技術の代表格であるStable Diffusionを自分のパソコンで動かしたいと考えるクリエイターが急増しています。特にAMD製グラフィックカードを搭載したPCユーザーにとって、ローカル環境での構築は技術的な挑戦でもあります。従来、Stable DiffusionはNVIDIA社のCUDA技術向けに最適化されていたため、AMD GPUでの動作には制約がありました。しかし、DirectMLやROCm、ZLUDAといった革新的技術の登場により、AMD GPUでも実用的な速度での画像生成が可能になっています。本記事では、AMD GPU環境でのStable Diffusionローカル構築について、初心者から上級者まで理解できるよう、最新の情報を基に詳しく解説します。適切な構築方法を理解することで、高品質なAI画像生成を自分の環境で楽しめるようになるでしょう。

AMD GPUでStable Diffusionをローカル環境に構築するには何が必要?
AMD GPUでStable Diffusionを動作させるために必要な要素は、ハードウェア要件とソフトウェア環境の両方を満たすことです。
ハードウェア要件について、まず対応GPUの確認が重要です。2025年現在、ROCm 7のハードウェアスペックリストによると、Radeon RX 6600以上のモデル、およびVegaアーキテクチャがサポートされています。具体的には、Radeon RX 6000シリーズとRX 500シリーズは、特別な設定フラグを必要とせずにfp16で動作可能で、VRAMを効率的に使用できます。
VRAM容量については、最低8GBが必要ですが、快適な動作のためには12GB以上が推奨されます。4-6GBのVRAMを搭載したGPUでも、特別な設定フラグ(–opt-sub-quad-attention –lowvram –disable-nan-check)を追加することで動作可能です。ただし、生成できる画像サイズや処理速度に制限が生じる場合があります。
ソフトウェア要件では、Windows 11(DirectX 12サポート必須)、Git for Windows、そして重要なのがPython 3.10.6の使用です。Python 3.11以降は非推奨とされているため、バージョンに注意が必要です。また、十分なストレージ容量(最低20GB推奨)も確保しておきましょう。
システム準備として、AMDの最新ドライバーの導入も欠かせません。特にAdrenalin Editionドライバー23.5.2以降を使用することで、従来バージョンと比較して平均2倍のパフォーマンス向上が確認されています。ただし、最新のAdrenalineドライバー(2024.12以降)では一部の動作方式で互換性問題が報告されているため、安定性を重視する場合は推奨バージョンの使用を検討してください。
DirectML・ROCm・ZLUDAの違いと、どの方式を選ぶべき?
AMD GPUでStable Diffusionを動作させる際の3つの主要な方式には、それぞれ明確な特徴と適用シーンがあります。
DirectML方式は、MicrosoftのDirectX 12 APIをサポートするすべてのGPUで動作する汎用性の高い選択肢です。最大の利点は設定の簡単さと安定性で、Windows環境で最も確実に動作します。AMD Radeon RX 7900 XTXでは、Microsoft Olive最適化を適用することで、デフォルトのAutomatic1111パスと比較して最大12倍の推論速度向上を実現しています。初心者や安定動作を重視するユーザーに最適で、幅広いGPUモデルでサポートされています。
ROCm方式は、AMDが開発したGPUコンピューティングプラットフォームで、CUDAの代替として位置づけられています。2025年のROCm 7では、ROCm 6と比較して推論性能が3.5倍以上、トレーニングスループットが3倍向上という大幅な性能改善を実現しています。特にLinux環境(Ubuntu 24.04など)でROCmを使用した場合、Windows上のDirectMLと比較して約4倍高速という驚異的なパフォーマンス向上が報告されています。パフォーマンスを最優先にするユーザーや、Linux環境を使用できるユーザーに推奨されます。
ZLUDA方式は、最近のAMD GPUで推奨される新しいアプローチです。CUDAコードをAMD GPU上で動作させるための互換レイヤーとして機能し、多くのAMD GPUと高い互換性を持っています。2024年2月のZLUDAリリース以降、WindowsでAMD Radeon GPUでStable Diffusionを正常に実行できるようになりました。ただし、最新のAdrenalineドライバー(2024.12以降)では互換性問題が報告されているため、ドライバーバージョンの管理が重要です。
選択基準として、Windows環境で安定性を重視するならDirectML、パフォーマンスを最優先にするならZLUDA、Linux環境でのより可能で最高性能を求めるならROCmが推奨されます。また、VRAM容量が少ない環境では、各方式とも専用の最適化オプションが用意されているため、自分のハードウェア構成に最適な方式を選択することが重要です。
Windows環境でのStable Diffusion AMD GPU版インストール手順は?
Windows環境でのインストールは、AMD GPU Forge版を使用する方法が最も推奨されています。この方法では、lshqqytiger氏が開発したstable-diffusion-webui-amdgpu-forgeを使用します。
ステップ1:事前準備から始めましょう。まず、コマンドプロンプトまたはPowerShellを管理者権限で開きます。作業用ディレクトリ(例:C:\AI\)を作成し、そこに移動します。Git、Python 3.10.6、Visual Studio Code(任意)がインストールされていることを確認してください。
ステップ2:リポジトリのクローンでは、以下のコマンドを実行します:
git clone https://github.com/lshqqytiger/stable-diffusion-webui-amdgpu-forge.git
クローンが完了したら、作成されたディレクトリに移動します:
cd stable-diffusion-webui-amdgpu-forge
ステップ3:設定ファイルの編集が最も重要な工程です。webui-user.batファイルをテキストエディタで開き、使用する方式に応じて設定を追加します。ZLUDA使用時は「set COMMANDLINE_ARGS=–use-zluda」、DirectML使用時は「set COMMANDLINE_ARGS=–use-directml」を記述します。VRAM 4-6GBの場合は「set COMMANDLINE_ARGS=–use-directml –opt-sub-quad-attention –lowvram –disable-nan-check」のようにメモリ最適化オプションを追加します。
ステップ4:初回起動と環境構築では、webui-user.batをダブルクリックして実行します。初回起動時は、PythonパッケージやStable Diffusionの基本モデルなど、必要なファイルの自動ダウンロードが行われるため、30分から1時間程度の時間がかかります。インターネット接続が安定していることを確認し、途中でプロセスを停止しないよう注意してください。
ステップ5:動作確認として、「Running on local URL: http://127.0.0.1:7860」というメッセージが表示されたら起動完了です。Webブラウザを開き、http://127.0.0.1:7860 にアクセスすると、Stable DiffusionのWebUIが表示されます。
追加設定として、パフォーマンス向上のために環境変数「TORCH_ROCM_AOTRITON_ENABLE_EXPERIMENTAL=1」をwebui-user.batに追加することで、Flash AttentionやSage Attention、Tritonコンパイル機能が有効になります。また、初回起動後は基本モデル(Stable Diffusion 1.5やSDXL)をmodels/Stable-diffusionフォルダに配置することで、すぐに画像生成を開始できます。
VRAM容量別の最適化設定とパフォーマンス向上テクニックは?
VRAM容量に応じた最適化は、AMD GPUでのStable Diffusion動作において最も重要な要素の一つです。各容量帯に最適化された設定を理解することで、ハードウェアの性能を最大限に活用できます。
2-4GB VRAM環境では、厳格なメモリ管理が必要です。「–lowvram –opt-split-attention」オプションを必ず使用し、画像生成サイズを512×512ピクセルに制限することを強く推奨します。バッチサイズは1に設定し、同時に複数の処理を行わないよう注意してください。この容量帯では、ControlNetなどの拡張機能の使用は避け、基本的な画像生成に集中することが安定動作の鍵となります。
4-6GB VRAM環境では、「–medvram –opt-sub-quad-attention」の組み合わせが効果的です。512×512から768×768程度の画像生成が可能になり、LoRAモデルの軽量使用も視野に入ります。ただし、複雑なプロンプトや高ステップ数(50ステップ以上)の生成時は、メモリ不足エラーが発生する可能性があるため、段階的な設定調整が必要です。
6-8GB VRAM環境では、「–medvram」オプションで安定した動作が期待できます。1024×1024ピクセルの高解像度画像生成や、複数のLoRAモデルの同時使用も可能になります。この容量帯では、xFormersオプション(–xformers)の追加により、メモリ効率と処理速度の両方を向上させることができます。
8GB以上のVRAM環境では、追加設定は基本的に不要ですが、「–opt-sub-quad-attention」オプションを使用することで、さらなる高速化を実現できます。SDXLモデルの使用や、ControlNet + LoRAの複合使用、2048×2048ピクセル以上の超高解像度画像生成も快適に行えます。
共通する高速化テクニックとして、サンプラーの選択が重要です。DPM++ 2M Karrasは高速サンプラーとして人気が高く、品質を保ちながら生成時間を短縮できます。また、CFGスケールを7-9の範囲に設定し、ステップ数を20-30に調整することで、品質と速度の最適なバランスを実現できます。
2025年の最新最適化技術では、TensorRT統合によりSD1.5で約2倍、SDXLモデルで30%の生成速度向上が可能です。LCM(Latent Consistency Model)を使用することで、必要なステップ数を大幅に削減し、リアルタイムに近い画像生成も実現できます。ToMe(Token Merging)技術は、画像内の類似ピクセルをマージすることで計算負荷を軽減し、特にアップスケーラー使用時に効果的です。
2025年のAMD GPU環境での最新動向と今後の展望は?
2025年のAMD GPU環境は、技術革新と実用化の加速期を迎えています。最も注目すべき進展は、ROCm 7の大幅な機能強化です。
ROCm 7の革命的進化により、WindowsサポートとRadeon GPUサポートが大幅に拡張されました。Ryzen搭載PCの統合型および独立型GPUでAIワークロードを実行できるようになり、従来のLinux専用という制約から解放されています。2025年後半には完全なWindowsサポートが提供される予定で、これによりAMD GPUユーザーのStable Diffusion体験が根本的に改善されることが期待されています。パフォーマンス面では、ROCm 6と比較して推論性能が3.5倍以上、トレーニングスループットが3倍向上という驚異的な数値を達成しています。
Microsoft・AMD協業の成果として、DirectMLの性能向上が続いています。Microsoft Olive最適化により、AMD Radeon RX 7900 XTXでのStable Diffusion 1.5の推論速度が最大12倍向上しました。MicrosoftとAMDの継続的な協力により、WindowsプラットフォームでAMD GPU上のAIワークロードの有効化と高速化が着実に進んでいます。量子化技術により、ほとんどのレイヤーをFP32からFP16に変換し、モデルのGPUメモリフットプリントを削減しながら性能を向上させています。
新しいGPUアーキテクチャの展望では、AMDの次世代GPUにAI処理特化機能の追加が予定されています。gfx1201(RX9070/XT)やgfx1151(RDNA3.5 Strix Point)といった新しいアーキテクチャでは、専用のAI処理ユニットが統合され、Stable DiffusionなどのAIワークロードでの性能が大幅に向上します。これらの新アーキテクチャでは、ROCm 6.2.4が必須要件となっており、従来のROCm 5.7.1では対応できない場合があります。
オープンソース・コミュニティの貢献も見逃せません。Forge版やSD.Nextなどのコミュニティ主導のプロジェクトにより、AMD GPU対応が継続的に改善されています。特にForge/ReForgeバージョンは、Auto1111の拡張機能の約80%が使用できる高い互換性を実現し、VRAMが少ないPC(2GB程度)でも動作報告があります。
AI業界全体のトレンドとして、2025年はオープンソースAIモデルの年となっています。Stable Diffusion 3.5やAnimagine XL 3.0などの高性能モデルがリリースされ、AMD GPUでもこれらの最新モデルを活用できる環境が整いつつあります。
今後の展望では、2025年下半期にAMD GPUでのAI処理能力がNVIDIA GPUに匹敵するレベルまで向上すると予測されています。特にコストパフォーマンスの観点から、AMD GPUは魅力的な選択肢となり、クリエイターや研究者の間での採用が加速すると予想されます。ROCm 8やDirectML 2.0といった次世代技術の登場により、AMD GPUでのAI画像生成はさらに身近で実用的なものとなるでしょう。
コメント