「モデルマージを繰り返していたら、どのキャラも同じ顔になってしまった——」
このお悩みを持つSD/LoRAユーザーは多いのではないでしょうか?複数の質感LoRAを組み合わせるために何度もマージを重ねると、顔の個性が失われ、最終的には「AI顔」という平坦で無個性な顔に収束してしまう現象です。
筆者はこれまで300回超えのLoRA学習と、さらに多くのマージ実験を通じてこの問題に直面し、そして解決策を見つけました。その過程で学んだのは、「全てをマージで解決しようとしてはいけない」という発想の転換です。
この記事では、なぜマージすると同じ顔になるのか、そしてどうやってそれを回避するのかについて、実践的なテクニックを詳しく解説します。
目次
1. なぜマージすると同じ顔になるのか
質感の追求に没頭していると、複数のLoRA(質感特化型)を組み合わせて使いたくなります。金箔の艶、岩絵の具の粒子感、筆致の質感——すべてを一度に表現したい、という気持ちです。
しかし、マージ(重みの加算)を繰り返すと、何が起こるのか?
マージによる「顔の平均化」メカニズム
段階1: 重みの加算 - モデルAとモデルBをマージするとき、両者の重み係数が足し合わされます。例えば、モデルAの顔パラメータ50% + モデルBの顔パラメータ50% という具合です。
段階2: 特徴の中和 - モデルAが「切れ長の目」という特徴を持ち、モデルBが「丸い目」という特徴を持つ場合、マージするとその中間的な「平均的な目」になってしまいます。
段階3: 最頻出パターンへの収束 - 何度もマージを重ねるたびに、個別の特徴が失われ、訓練データ内で最も頻繁に現れる「無個性な平均的な顔」(つまりAI顔)に収束していくのです。
つまり、マージは「複数の特徴を足し合わせる」という操作ですが、これは顔のような複雑な特徴には適さないのです。顔の多様性は、数値の平均化では保存できません。
数式で理解する
例を示します:
- モデルA(顔特徴ベクトル): [鋭い目: 0.8, 丸い顔: 0.2, 個性的な唇: 0.7]
- モデルB(顔特徴ベクトル): [鋭い目: 0.2, 丸い顔: 0.8, 個性的な唇: 0.3]
- マージ結果(50%:50%): [鋭い目: 0.5, 丸い顔: 0.5, 個性的な唇: 0.5]
見てわかるとおり、個性的な特徴がすべて「0.5」という中間値に収束してしまいます。これが、何度もマージすると「無個性になる」理由です。
2. 工程分離(デカップリング)という考え方
では、どうやってこの問題を解決するのか?答えは「全てをマージで解決しようとしない」という発想の転換です。
これを「工程分離(デカップリング)」と呼びます。AI画像生成には複数の異なる処理段階があり、それぞれに最適なツールが異なります。これを混ぜるから問題が起こるのです。
従来のアプローチ(問題あり)
「質感LoRA」「顔LoRA」「背景LoRA」をすべてマージして、1つのスーパーLoRA を作る
↓ 結果:質感も顔も背景も、すべてが平均化されて個性がない
工程分離のアプローチはこうです:
各工程に異なるツールを割り当てることで、それぞれの強みを活かし、弱みを補完するのです。
- マージ: 質感に特化した処理
- IP-Adapter: キャラクター性(顔・ポーズ)の固定
- Inpaint: 最終的な顔の調整と統合
3. Step 1: マージは「質感」のためだけに使う
3-1. 質感に特化したマージ設定
マージを行う際の第一原則は、「顔パラメータの影響を最小化する」ことです。
多くのLoRA学習ツール(Kohya_ssなど)では、学習対象の「マスク」を細かく制御できます。これを逆算して使います。即ち、質感成分だけを抽出してマージするのです。
質感マージの推奨設定
マージ対象: 質感LoRA A + 質感LoRA B + 質感LoRA C
マージ比率: 各33%(3つの場合)または カスタム調整(例:金箔40% + 岩絵の具35% + 筆致25%)
注意点: 顔が含まれたLoRAは、この段階では含めない。顔は後のIP-Adapterで制御します。
3-2. マージ配合のコツ
質感LoRAをマージする際の実践的なコツを紹介します:
| 質感の種類 | 推奨マージ比率 | 注意点 |
|---|---|---|
| 金箔の艶 | 30~40% | 強すぎるとギラギラになるため、低めから調整 |
| 岩絵の具の粒子 | 25~35% | 粒子の大きさが変わるため、複数試してから決定 |
| 筆致の質感 | 20~30% | 方向性が強いため、小刻みな調整が必要 |
| 透明度・透光性 | 15~25% | わずかなマージ比でも効果が大きい |
ポイントは「控えめなマージ比から始める」ことです。質感LoRAは、わずかな比率でも大きな視覚効果をもたらします。最初は20~30%程度から試して、段階的に増やしていくことをお勧めします。
3-3. Before/After比較
Before/After画像(ユーザーが後で追加予定)
<質感マージ前の画像> - 金属の光沢が単調
<質感マージ後の画像> - 金箔の剥がれ、岩絵の具の粒子感、筆致が統合され、より立体的で日本伝統的な質感に
4. Step 2: IP-Adapterで顔を固定する
4-1. IP-Adapterの仕組み
IP-Adapter(Image Prompt Adapter)は、ControlNetの一種で、参照画像から「スタイル」や「ポーズ」「顔の特徴」を抽出し、生成画像に適用するツールです。
重要な特徴は、「モデルの内部パラメータを直接変更しない」という点です。代わりに、外部リファレンスから特徴を読み込んで、生成時にそれを「上書き」するのです。
IP-AdapterとLoRAの違い
LoRA(工程1のマージ): モデルの内部パラメータそのものを変更。永続的で、生成結果に大きく影響するが、混ぜすぎると平均化される
IP-Adapter(工程2): 生成時の入力として機能。参照画像のみで制御されるため、複数の参照を組み合わせても「平均化」が起こりにくい
4-2. 設定の基本
IP-Adapterを使用する際の基本設定を示します:
| パラメータ | 推奨値 | 説明 |
|---|---|---|
| IP-Adapter Scale | 0.5~0.8 | 高いほどリファレンス画像の影響が強い。1.0は完全にリファレンスに従う |
| Face Preservation | ON(有効) | 顔の特徴を強く保持。キャラの個性維持に必須 |
| Pose Guidance | 0.3~0.6 | ポーズの固定度。低いほど新しいポーズも可能 |
| Strength | 1.0 | IP-Adapter全体の影響度。通常は最大値 |
4-3. キャラクター性の維持
IP-Adapterの力を引き出すポイントは、「質の高いリファレンス画像を複数用意すること」です。
- リファレンス画像1: キャラの顔が正面を向いた、はっきりしたもの
- リファレンス画像2: キャラが異なるポーズをしている画像
- リファレンス画像3: キャラの表情の多様性を示すもの(笑顔、真顔など)
これら複数のリファレンスをIP-Adapterで同時に使用することで、AI顔に陥らず、かつ顔の多様性も保つことができます。
5. Step 3: Inpaintで仕上げる
5-1. Inpaintの役割
ここまでの工程(マージ + IP-Adapter)で、ほぼ完成に近い画像が生成されます。しかし、時には顔の一部(目、口など)が「微妙に違う」という微調整が必要になることがあります。
このとき活躍するのがInpaint(局所生成)です。Inpaintは指定した領域(例:顔)だけを、別のモデルで再生成する機能です。
Inpaintの使用シーン
シーン1: 目の表情が想定と異なる場合、目の領域だけをInpaintで修正
シーン2: 唇の色合いが背景の質感と馴染んでいない場合、唇だけを再生成
シーン3: IP-Adapterで固定された顔が、マージされた質感と完全に調和していない場合、バランスの取れた修正
5-2. Denoising strengthの推奨値
Inpaintには「Denoising strength」という重要なパラメータがあります。これは、指定領域をどの程度「新しく生成するか」を制御します。
| Denoising Value | 効果 | 推奨用途 |
|---|---|---|
| 0.3~0.4 | 元の画像をほぼ保持しながら、わずかに修正 | 微調整。目や唇の色合いの調整 |
| 0.4~0.5 | バランスの取れた修正 | 顔全体の表情調整。一般的に最も使用される値 |
| 0.5~0.7 | より大きな変化を許容 | 大幅な修正。背景の質感と顔の統合 |
| 0.7以上 | 元の画像との関連性が薄れる | 使用非推奨。別の顔に変わる可能性 |
筆者の経験では、0.3~0.5の範囲がAI顔に陥らず、かつ修正効果を得る最適値です。
5-3. 実装の流れ
Inpaintの実装ステップを示します:
- マスク画像の準備: 修正したい領域(例:顔)をマスク画像で指定。一般的なInpaintツールでは、ブラシで領域を選択します
- パラメータ設定: Denoising strengthを0.4に設定(微調整の場合)
- モデル選択: 顔生成が得意なモデル(例:Chilloutmix、Realistic Visionなど)を選択
- 生成実行: Inpaintを実行。指定領域だけが再生成されます
- 品質確認: 生成結果と元の画像の一貫性を確認。違和感があれば、Denoising strengthを調整して再実行
Inpaint使用時の注意
Inpaintを複数回繰り返すと、修正領域の周辺に「継ぎ目」が生じることがあります。必ず3回以内の修正に留め、それ以上必要な場合は最初からやり直すことをお勧めします。
6. まとめ:工程分離フロー
ここまで、AI顔を回避する3つの工程について解説しました。最後に、全体のフロー図をおさらいします。
質感LoRA A + 質感LoRA B + 質感LoRA C → 質感マージLoRA
(顔パラメータの影響は最小化)
Step 2: IP-Adapter
質感マージLoRA + IP-Adapter(リファレンス画像)
→ 質感と顔が両立した画像
Step 3: Inpaint(必要に応じて)
→ 顔の細部調整
→ 最終画像完成
工程分離のメリット
- メリット1: 個性の保持 - 各工程で異なるツールを使うことで、「平均化」を防ぎ、キャラの個性を保ちながら質感を追求できます
- メリット2: 柔軟性 - 気に入らない結果は、各工程を単独で修正できます。全部やり直す必要がありません
- メリット3: 再現性 - 同じ工程分離フローを繰り返すことで、安定した品質を実現できます
- メリット4: 拡張性 - 新しい質感LoRAを追加する際、既存の顔・ポーズはそのまま活用できます
最後に:質感への没頭を可能に
TextureLoRALabが掲げるテーマは、「日本伝統質感をAIに学習させる」ことです。金箔の剥がれ、岩絵の具の粒子感、螺鈿(らでん)の輝き——これらの質感を追求する過程で、複数のLoRAを組み合わせることは避けられません。
しかし、そのときにAI顔に陥っては、本来の目的を見失ってしまいます。工程分離(デカップリング)という考え方を採用することで、「質感への没頭」と「顔の個性の保持」の両立が可能になるのです。
このテクニックは、筆者が300回超えのLoRA学習と、さらに多くのマージ実験を通じて得た知見です。ぜひ皆さんのAI画像生成に活かしてください。