Stable Diffusion + PyTorchでアニメキャラクター生成に挑戦！（前編）

公開日: 2026年2月18日
著者: Shion Shinzaki
GitHub: anime-character-generator

📚 学術的背景
1. 主要参考論文
はじめに
📍 Stable Diffusionとは？
1. 基本概念
2. 仕組みの概要
📍 Stable Diffusion のバージョン体系（2026年2月現在）
🎨 PyTorch + Diffusersで実装する理由
1. 求人要件との対応
2. 技術スタックの何を使うか
🔧 技術仕様書：プロジェクト実装計画
📊 プロンプトエンジニアリング入門
🎓 学ぶべき重要概念
🚀 後編への準備
1. やるべきこと
2. 注意点
📚参考資料
まとめ
1. 前編で身につくこと
2. 次のステップ（後編）

📚 学術的背景

本プロジェクトの基礎となる重要な学術研究：

主要参考論文

Denoising Diffusion Probabilistic Models (DDPM)
- Ho, J., Jain, A., & Abbeel, P. (2020)
- URL: https://arxiv.org/abs/2006.11239
- 拡散モデルの理論的基礎
High-Resolution Image Synthesis with Latent Diffusion Models
- Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022)
- URL: https://arxiv.org/abs/2112.10752
- Stable Diffusion v1.5 の基礎論文
- 主な貢献：潜在空間での拡散により計算量を 1/512 に削減
Text-to-Image Diffusion Models Can Be Easily Fooled
- Wang, X., Ge, Y., Zhang, R., Wang, Y., Cheng, X., Shan, Y., & Duan, X. (2023)
- URL: https://arxiv.org/abs/2307.06936
- プロンプト理解と画像生成の整合性に関する研究
LCM: Latent Consistency Models for Fast Image Generation
- Luo, S., Tan, Y., Huang, L., Li, J., & Zhao, H. (2023)
- URL: https://arxiv.org/abs/2310.04378
- 高速推論技術（SDXL Turbo の基礎）

はじめに

こんにちは。昨日からAI画像生成の学習を本格的に始めました。

このプロジェクトの背景：

目的: アニメ制作×AI 技術職に応募するための実績作成
要件: PyTorch、Diffusers、AI 画像生成の実務経験を開示
期間: GitHub 公開できるポートフォリオを完成させる

今回の記事では、AI画像生成について学んだ基礎知識とプロジェクト計画をまとめます。

📍 Stable Diffusionとは？

基本概念

Stable Diffusion（安定拡散）は、テキストから高品質な画像を生成できるオープンソースの深層学習モデルです。

主な特徴：

✅ オープンソース（商用利用も可能）
✅ 軽量で、ローカルマシンでも動作
✅ 業界標準（アニメ制作現場でも採用）
✅ カスタマイズ可能（LoRA、ControlNet 等）

仕組みの概要

Stable Diffusionは「拡散モデル」（Diffusion Model）に基づいています：

フォワードプロセス: ノイズを徐々に加えていく
リバースプロセス: テキストプロンプトを条件に、ノイズから画像を復元

ざっくり言うと：

テキストプロンプト → エンコーディング → ノイズ注入 → デノイジング → 画像生成

潜在空間での処理（DDPM との主な改善）

Stable Diffusion の革新的な点は、元の画像解像度（512×512）ではなく、潜在空間（latent space）の 1/8 サイズ（64×64）で拡散を行う ことです。

結果：

計算量 = 1/512 に削減（8 × 8 = 64 倍）
推論速度が劇的に向上
メモリ効率が 10 倍以上改善

📍 Stable Diffusion のバージョン体系（2026年2月現在）

Stable Diffusion には 2 つの異なるバージョン体系 があります：

1. AIモデルのバージョン（画力・性能）

Stability AI が公開している最新シリーズ：

バージョン	発表時期	パラメータ	特徴	用途
Stable Diffusion 1.5	2022年10月	~860M	軽量・高速・カスタム多彩	✅ 本プロジェクトで使用
SDXL 1.0	2023年7月	~6.6B	高品質・詳細描写	実写・高画質が必要な場合
Stable Diffusion 3.5	2024年10月	可変（Medium: 2.5B, Large: 8B）	高プロンプト理解・マルチリンガル対応	英文指示に忠実
SD3.5 Large	2024年10月	8B	最高画質	プロ向け
SD3.5 Medium	2024年10月	2.5B	バランス型（Mac での実行推奨）	高性能が必要だが軽量化したい場合
SD3.5 Large Turbo	2024年10月	8B	数ステップで高速生成	リアルタイム生成
SD4 / 次世代モデル	2026年現在	–	3D資産・ビデオ統合・リアルタイム推論	研究開発中
Stable Video Diffusion 2.0	2024年	–	動画生成（数秒～数分）	ビデオコンテンツ生成
Stable Audio 2.5	2024年	–	音楽・音声生成（高品質）	サウンドトラック・ナレーション

実装者向けの現実的な選択

🎯 アニメ制作用途: Stable Diffusion 1.5 + カスタムLoRA がまだ最強
- 理由：LoRA・ControlNet などの拡張機能が圧倒的に豊富
- Civitai や Hugging Face で 数千のカスタムモデル公開
🎯 高精度・プロンプト遵守: Stable Diffusion 3.5 Large
- 理由：CLIP の進化により英文理解度が大幅向上
- 計算コスト増加（推論時間が v1.5 の 2-3 倍）
🎯 高速リアルタイム生成: SD3.5 Large Turbo または SDXL Turbo
- 理由：4-8 ステップで高品質画像を生成可能
- 実装の複雑性が増す可能性
🎯 Mac での実行: SD3.5 Medium + Draw Things アプリまたは ComfyUI
- 理由：Unified Memory を最大限に活用
- 推奨：ローカル推論なら 2.5B パラメータが最適

2. 操作ツール（WebUI）のバージョン

最も普及している AUTOMATIC1111 版 Stable Diffusion web UI：

最新安定版: v1.10.x ～ v2.0.x 前後
最後の大型更新: 2024年初頭の v1.8.0
最新機能:
- Stable Diffusion 3.5 への対応
- TensorRT バックエンド統合（推論高速化）
- Forge エンジン（メモリ最適化）

注意点：どれを選ぶべきか？

最新 = 最良ではないというこの業界の特徴：

実装戦略の選択フロー：

Q1: どのマシンで動かすのか？
├─ Mac（Apple Silicon）
│  → できるだけ軽量モデル（SD 1.5 or 3.5 Medium）
│  → アプリ推奨：Draw Things / ComfyUI
├─ ローカル GPU（NVIDIA）
│  → 好きなモデル選択可（推奨：SDXL or SD 3.5）
│  → AUTOMATIC1111 WebUI が最も一般的
└─ クラウド（Google Colab など）
   → リソース制限なし（推奨：SD 1.5 or 3.5）
   → Colab Notebook で即座に実行可

Q2: 何を重視するのか？
├─ カスタマイズ・拡張性
│  → Stable Diffusion 1.5 が最適
│  → LoRA・ControlNet・VAE の拡張機能豊富
├─ 画質・細部表現
│  → SDXL 1.0 or SD 3.5 Large
│  → パラメータ数が多い分、細部が精密
└─ 高速生成・リアルタイム
   → SD3.5 Turbo or SDXL Turbo
   → 4-8 ステップで高品質画像生成

Q3: 既存エコシステムの活用は？
├─ LoRA・ControlNet が豊富
│  → Stable Diffusion 1.5 選択（推奨）
│  → 資産（素人作成モデル）が積み重なっている
└─ 最新機能を試したい
   → Stable Diffusion 3.5 選択
   → マルチリンガル対応で国際化も容易

本プロジェクトでの判断：Stable Diffusion v1.5 を選択した理由

Google Colab T4（16GB）で確実に動作（余裕をもって）
高速推論 3-5秒/画像（ユーザー体験向上）
カスタマイズ性が高く、今後の改善計画に対応可能
既存エコシステム（LoRA・ControlNet）が圧倒的に豊富

仕込み

Stable Diffusionは「拡散モデル」（Diffusion Model）に基づいています：

フォワードプロセス: ノイズを徐々に加えていく
リバースプロセス: テキストプロンプトを条件に、ノイズから画像を復元

ざっくり言うと：

テキストプロンプト → エンコーディング → ノイズ注入 → デノイジング → 画像生成

潜在空間での処理（DDPM との主な改善）

Stable Diffusion の革新的な点は、元の画像解像度（512×512）ではなく、潜在空間（latent space）の 1/8 サイズ（64×64）で拡散を行う ことです。

結果：

計算量 = 1/512 に削減（8 × 8 = 64 倍）
推論速度が劇的に向上
メモリ効率が 10 倍以上改善

🎨 PyTorch + Diffusersで実装する理由

求人要件との対応

必須スキル：

&#x2705; Pythonによる開発実務経験（PyTorch, Diffusers等のAI・画像生成ライブラリ経験必須）
&#x2705; AI画像生成モデル（Stable Diffusion, ComfyUI等）と LLM に関する基礎知識・実務経験
&#x2705; GitHubを用いたチーム開発経験

つまり、PyTorch + Diffusersの実装経験を示すことが採用への大きなプラスになります。

技術スタックの何を使うか

選択肢の比較：

ツー	学習	業界標準性	実務性	推奨度
AUTOMATIC1111	初級	⭐⭐⭐⭐⭐	WebUI	入門向け
ComfyUI	中級	⭐⭐⭐⭐⭐	ワークフロー	制作現場向け
PyTorch + Diffusers	上級	⭐⭐⭐⭐⭐	スクリプト開発	求人対策最適
MLX	中級	⭐⭐	Mac最適化	参考程度

前編の学習パスでは、すべて習得しますが、特に PyTorch + Diffusers を最優先とします。

🔧 技術仕様書：プロジェクト実装計画

プロジェクト概要

anime-character-generator
├ 目的: Stable Diffusionを使ったアニメキャラクター自動生成
├ 入力: プロンプト + 感情指定 + スタイル指定
└ 出力: 複数バリエーションのアニメキャラクター画像

環境仕様

ローカル開発環境：

OS: macOS
GPU: Apple Silicon (MPS)
Python: 3.10+
パッケージマネージャ: uv（高速） / pip

クラウド環境：

Google Colab（GPU無料）
AWS SageMaker（クラウドGPU）
Lambda Labs（高性能GPU）

フェーズごとの実装内容

Phase 1: 前編（基礎体験）

目標: Stable Diffusion の基本操作と理論習得

# 簡易実装例
from diffusers import StableDiffusionPipeline
import torch

# パイプライン初期化
pipe = StableDiffusionPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5",
    torch_dtype=torch.float16
)
pipe = pipe.to("mps")  # Apple Silicon GPU

# プロンプト定義
emotions = ["happy smile", "angry", "sad", "surprised"]

# 画像生成ループ
for emotion in emotions:
    prompt = f"1girl, anime character, {emotion}, high quality"
    image = pipe(prompt).images[0]
    image.save(f"character_{emotion}.png")

成果物:

✅ 技術ブログ記事1本（この記事）
✅ プロンプト集
✅ 基本理論の整理

Phase 2: 後編（開発）

目標: PyTorch スクリプトをGitHub公開

anime-character-generator/
├── character_generator.py          # メインスクリプト
├── config.py                        # 設定ファイル
├── requirements.txt                 # 依存関係
├── README.md                        # ドキュメント
├── templates/
│   └── emotions.json               # プロンプトテンプレート
└── outputs/                        # 生成画像

実装ハイライト:

クラスベースアーキテクチャ
MPS（Apple Silicon GPU）対応
感情 & スタイルバリエーション自動生成
Git で開発履歴を可視化

メモリ最適化テクニック

Mac MiniなどのローカルGPUで動作させるための最適化：

# 1. float16使用（メモリ50%削減）
pipe = StableDiffusionPipeline.from_pretrained(
    model,
    torch_dtype=torch.float16
)

# 2. Attention Slicing（メモリ効率向上）
pipe.enable_attention_slicing()

# 3. さらに節約が必要な場合
pipe.enable_model_cpu_offload()

性能目標:

M1/M2 Mac Mini: 画像1枚あたり約30秒
モデルロード: 初回5秒
バッチ処理: 4感情 × 複数スタイル = 2-3分

📊 プロンプトエンジニアリング入門

プロンプト構造

効果的なプロンプトの構成要素：

[主体] + [スタイル] + [表情/属性] + [品質形容詞] + [背景]

具体例:

&#x2705; Good:
"1girl, anime character, happy smile, cute, detailed eyes, masterpiece, high quality, white background"

&#x274c; Bad:
"girl generate"

テスト用プロンプト集

感情表現（Emotion）:

{
  "happy": "happy smile, cheerful, joyful expression, bright",
  "angry": "angry expression, intense eyes, fierce, furious",
  "sad": "sad expression, melancholic, teary eyes, poignant",
  "surprised": "surprised expression, wide eyes, amazed, shocked"
}

スタイル属性（Style）:

{
  "with_hat": "wearing hat, stylish, fashionable",
  "with_earrings": "wearing earrings, jewelry, elegant",
  "with_makeup": "with makeup, beautiful, glamorous",
  "formal": "wearing formal dress, elegant, professional",
  "casual": "casual outfit, relaxed, friendly",

  "long_hair": "long brown hair, soft flowing hair",
  "blush": "soft blush on cheeks",

  "fireplace": "warm fireplace in background",
  "warm_lighting": "warm ambient lighting, soft orange glow",
  "cozy_room": "cozy indoor setting",
  "bokeh": "cinematic bokeh lights",

  "portrait": "upper body portrait",
  "depth_of_field": "shallow depth of field",
  "high_detail": "highly detailed",
  "soft_shading": "soft anime shading",
  "masterpiece": "masterpiece, best quality"
}

パラメータチューニング

パラメータ	推奨値	効果
`num_inference_steps`	20-30	多いほど品質向上（時間増加）
`guidance_scale`	7.0-10.0	プロンプト反映度（高いほど忠実）
`height/width`	512	小さいほど高速
`seed`	ランダム/固定	再現性制御

🎓 学ぶべき重要概念

1. 拡散モデルの基本

ノイズからの画像生成プロセス
ステップ数の影響
ファインチューニングの可能性

2. プロンプトエンジニアリング

具体的な修飾語の重要性
Positive / Negative プロンプトの役割
業界標準の書き方

3. PyTorch の基礎

テンソル操作
デバイス管理（GPU / CPU / MPS）
メモリ最適化

4. 実装パターン

パイプラインアーキテクチャの理解
型の適切な選択（float16 vs float32）
エラーハンドリング

🚀 後編への準備

やるべきこと

GitHub アカウントでリポジトリ作成準備
開発環境確認（M1/M2 MacのMPS対応確認）
PyTorch/Diffusersのバージョン確認

注意点

⚠️ 環境構築のコツ:

Conda環境の完全分離が重要
既存の pip パッケージの干渉を避ける
venv or uv で仮想環境を必ず使用

⚠️ 初回実行時：

モデルダウンロード: 4-8GB
初期化時間: 5-10秒
ディスク容量確保が重須

📚参考資料

公式ドキュメント

技術記事・チュートリアル

コミュニティリソース

まとめ

前編で身につくこと

✅ Stable Diffusionの仕組みの理解 ✅ PyTorch + Diffusersの基本概念 ✅ プロンプトエンジニアリングの実践知識 ✅ ローカル環境での実行経験

次のステップ（後編）

後編では、今回学んた理論を含めてPytorchスクリプトを本格実装し、GitHub で公開します。

求人要件の「PyTorch, Diffusersの実務経験」を具体的に示すポートフォリオが完成します！

このプロジェクトの進捗はGitHubで公開予定です。

次回予告: 後編「PyTorchスクリプト実装とGitHub公開」