Stable Diffusion とは
テキスト説明から画像を生成するモデル
Stable Diffusion は、Stability AIが開発した、テキスト記述から画像を生成するオープンソースの機械学習モデルです。
仕組み
- テキストプロンプトがエンベディングに変換
- モデルがランダム画像からノイズを徐々に除去
- テキスト記述(CLIP)によってガイド
- 結果はプロンプトに一致する画像
- Latent diffusion:圧縮空間で動作
機能
- テキストから画像生成
- 画像編集(インペインティング)
- スタイル転送(img2img)
- 解像度アップスケーリング
- バリエーション生成
メリット
- オープンソース
- 消費者向けGPUで動作
- 高品質な画像
- 活発なコミュニティ
- 多くの拡張機能とモデル
ビジネス応用
- マーケティング素材の作成
- デザインプロトタイピング
- SNSコンテンツ生成
- コンセプトアートと可視化
- パーソナライズ画像
ツール
- Automatic1111 WebUI
- ComfyUI
- InvokeAI
- DiffusionBee(macOS)
- Draw Things(iOS)
バージョン
- SD 1.5 — 基本安定版
- SD 2.0/2.1 — 品質向上
- SDXL — 高解像度(1024x1024)
- SD 3 — 最新アーキテクチャ