LoRA学習データのタグ付けに、美術の眼が要る理由——WD14が拾えないものがある

WD14で自動タグ付けをした。枚数も多い。メタデータもしっかり入った。これでLoRA学習を始めよう——そう思っていたのに、出力結果を見ると何かが足りない感覚がある。完全に間違っているわけではない。でも「違う」という違和感だけが残る。

その違和感の正体が、WD14が見落としているものなのだ。

WD14が正確に拾うもの
WD14のスコープ外にあるもの——質感という領域
ではどうやって教えるのか
実例——金箔LoRA完成まで
「ここまでは自動化できる。ここからは判断が要る」

1. WD14が正確に拾うもの

WD14は、イラスト投稿サイトDanbooruのタグ体系をベースに学習されたタグ分類器だ。Danbooruユーザーがタグ付けした分類基準——キャラクターの髪色、服装、ポーズ、構図——を再現することに特化している。その設計範囲内では、非常に高い精度を発揮する。

例えば「金色の物体」「厚塗りの油絵」「逆光の写真」といった分類なら、WD14は信頼できる精度でタグを割り当てる。Danbooruで頻繁にタグ付けされるカテゴリについては、人間が目視で付けるよりもぶれが少ない。

2. WD14のスコープ外にあるもの——質感という領域

ここで重要なのは、WD14が「拾えない」のではなく、そもそもWD14の設計スコープ外であるということだ。WD14はDanbooruのイラスト分類のために作られたタグ分類器であり、美術工芸品の質感分析は設計目的に含まれていない。不十分なのではなく、目的が違うのだ。

絵画や工芸品のLoRA学習では、Danbooruの分類体系では扱えない「質感」の層が必要になる。

金箔の場合を考えてみよう。金箔は職人が1万分の1ミリまで叩き伸ばされた金属薄膜だ。その表面には、箔打ちの技法による方向性がある。ハクアシという同じ方向への打ち重ねと、ネカワシという異なる方向への打ち重ねで、光の乱反射が変わる。さらに砂子という金粉を吹き付ける表現では、粒子の粗さと分布にもゆらぎがある。

これらの細部は、特徴量の階層的な抽出では捉えきれない。むしろ「どう見えるか」ではなく「どう物理的に成り立っているか」に関わる知識である。

同様に、岩絵の具の場合は粒子径のばらつきが決定的だ。群青や朱は、天然の鉱物を砕いたもので、粒子サイズが1マイクロメートルから数百マイクロメートルまで幅がある。この粗さの度合いが、絵の透明度と光の透過性を決める。しかしWD14は「blue pigment」「red pigment」と、顔料の種類は拾うが、その粒度については何も返さない。

螺鈿の虹色も同じだ。螺鈿は真珠層を薄く削り、その構造が光を干渉させることで虹色が出現する。この色は「見る角度が変わると色が変わる」という性質そのものである。しかし学習データの静止画には、その角度変化は記録されていない。WD14は「iridescent」「mother of pearl」といった一般的なタグは返すかもしれないが、「この角度からの光で、こういう色の重なり方が起きている」という観察は、静止画からは物理的に復元できない。

質感とは、こうした物理的な細部の積み重ねなのだ。それは画像全体の統計的な特徴ではなく、素材と技法の知識体系からしか理解できない。

3. ではどうやって教えるのか

では、WD14が拾えないこうした質感を、どうやってLoRA学習に伝えるのか。

答えは「画像の構成で教える」ということになる。

具体的には、学習データセット全体の選別である。金箔であれば、できるだけ同じ技法で、同じ照度で、同じ時期に製作された作品の画像を集める。すると、そうした画像群の中には、自動タグでは捉えられなかった共通の「質感」が暗黙のうちに含まれる。モデルはタグとして明示されていない情報を、画像間に繰り返し現れるパターンから学習する。つまり「タグ文字列に書かれていないが、画像に示されている規則性」を、低階層の特徴量として習得するわけだ。

これは言わば「引き算」のデータセット構築である。余計な画像を入れない。照度が大きく異なる画像は混ぜない。制作時期が異なる作品は分けておく。こうした「何を入れないか」の判断が、実は最も難しい。

この判断には、美術の知識がいる。金箔の場合なら、箔打ちの時代による変化を知っていなければ、江戸期の平箔と現代の砂子を同じセットに入れてしまう。岩絵の具なら、鉱脈の産地による粒度の違いを知っていなければ、ラピスラズリとアフガン産のものを区別できない。

これは自動化できない判断である。

4. 実例——金箔LoRA完成まで

実際に金箔LoRAを構築するとき、何が起きるか。

初期段階では、WD14の自動タグに従ったセットで学習した。「gold」「metallic」「shiny」といったタグが付いた画像を、ひたすら学習させた。結果はどうか。出力は「金色の何か」になった。金箔とは呼べない、ただの金色のテクスチャである。

そこで、学習データセットの構成を根本的に見直した。以下の基準で画像を選別した：

箔打ちの技法による方向性が視認できる作品に限定する
照度は北窓の自然光で撮影されたものに統一する
製作時期を江戸中期から江戸後期に限定する
砂子との混在は避ける

こうした「引き算」を重ねると、データセットは大幅に絞り込まれた。しかし、このセットで学習したLoRAは、生成画像に明らかな変化をもたらした。単なる「金色」ではなく、「金箔の表面に微妙な凹凸と方向性がある」という、物理的な質感が出現した。

このセットで学習したLoRAの出力を、元の学習画像と並べて比較すると、単なる色再現ではなく、箔打ちの方向性に起因する光の乱反射が再現されていた。

5. 「ここまでは自動化できる。ここからは判断が要る」

WD14の自動タグ付けは、確かに強力なツールだ。数千枚の画像を数時間で処理する。人間なら数日かかる作業を、瞬時にこなす。

しかし、その先がある。「何をタグにして、何をタグにしないか」という判断である。

自動化ツールの出力は「ここまでは機械で処理できますよ」という境界線を示すものに過ぎない。本当の仕事は、その先——「ここから先は、人間の美術的な眼と判断がいる」という領域にある。

この領域に踏み込むなら、美術の知識が要る。それも、単なる知識ではなく「素材と技法の物理特性を理解し、データセットを『構成』する眼」が要る。

企業や大型プロジェクトが質感LoRAを本気で構築するなら、この部分の支援をお勧めしたい。自動ツールの先へ進む判断が、品質を決める。

企業・プロジェクトからのご相談

質感LoRA × デジタルアーカイブ × アクセシビリティに関するプロジェクトのご相談を承っています。

ご相談はこちら →

本記事の情報は2026年3月時点のものです。