Dein eigenes KI‑Fotomodell aus Fotos trainieren (kostenfrei & low‑cost)

Ziel: Du baust dir ein persönliches Bild‑Modell (z. B. für Personen, Produkte, einen Stil), das du überall wiederverwenden kannst – ideal für konsistente Serien, Kampagnen & Looks.


1) Was genau trainierst du?

  • LoRA (Low‑Rank Adaptation): kleines Zusatz‑Gewicht, schnell & günstig zu trainieren, super für Personen/Stile. Ergebnis: .safetensors (ein paar MB).
  • DreamBooth: feintuned Checkpoint (größer), lernt die Person/den Stil „schwerer“. Heute oft DreamBooth‑LoRA (Kombi) für SDXL.
  • Textual Inversion: lernt nur ein neues Prompt‑Token (extrem klein), schwächer als LoRA, aber simpel.

Für 2025 empfehle ich: SDXL‑LoRA (ggf. mit DreamBooth‑Techniken) – beste Balance aus Qualität, Kosten & Reproduzierbarkeit.


2) Deine Optionen (kostenfrei → günstig)

  1. Kaggle Notebooks (kostenfrei, GPU‑Kontingent)
    • Vorteil: gratis T4/P100 GPU (Wochenkontingent, Sessions limitiert).
    • Nachteil: Limits/Timeouts; Upload/Download via Notebook.
  2. Google Colab Free (kostenfrei, aber schwankend)
    • Vorteil: schneller Start.
    • Nachteil: GPU nicht garantiert, Zeitlimits, Disconnects.
  3. Hugging Face Spaces
    • Vorteil: No‑Code‑UIs existieren.
    • Nachteil: Für GPU meist kostenpflichtig (oder Warteschlangen).
  4. Low‑Cost GPU‑Cloud (RunPod, Vast.ai)
    • Vorteil: planbar, flott (RTX 4090/A100), GUI‑Templates (Kohya, A1111).
    • Nachteil: ein paar Euro pro Stunde.
  5. Lokal (Windows/macOS/Linux, NVIDIA 8–24 GB VRAM empfohlen)
    • Vorteil: volle Kontrolle, keine Limits.
    • Nachteil: Setup/VRAM nötig.

3) Datensatz: So bereitest du deine Fotos vor

  • Motiv‑Varianz: Nah/halb/ganzer Körper, verschiedene Kleidung, Licht, Hintergründe, Blickrichtungen, Emotionen.
  • Gesichter: Möglichst nur dein Zielgesicht, keine Neben‑Gesichter.
  • Qualität > Menge: Scharf, gut belichtet; verwackelte/duplizierte Bilder raus.
  • Auflösung: 768–1024 px kürzere Kante; SDXL arbeitet nativ gern mit 1024.
  • Captioning: Schreibe pro Bild kurze, präzise Beschreibungen (oder auto‑generieren via BLIP).
  • Reg‑Bilder (optional, DreamBooth): Klassenbilder („man“, „woman“, „backpack“, …) zur Stil‑Erhaltung.
  • Rechtliches: Nur Bilder mit Nutzungsrechten/Einwilligung; sensible Daten vermeiden.

Ordnerstruktur (Beispiel):

/data
  /instance      # deine Trainingsfotos + .txt-Captions
  /class         # optionale Regularization-Bilder

Caption‑Beispiele:

"a portrait photo of <TOK> man, studio lighting, close-up, neutral background"
"a full body photo of <TOK> man, streetwear, urban background, evening"

<TOK> = dein Trigger‑Wort (seltenes Token, z. B. „sksperson“).


4) Weg A (100% kostenfrei): Kaggle + Diffusers (SDXL‑LoRA)

A.1 Notebook vorbereiten

  • Neues Kaggle NotebookGPU aktivieren → Python.
  • Pakete installieren & Daten einbinden:
!pip -q install --upgrade pip
!pip -q install accelerate transformers peft diffusers==0.31.0 bitsandbytes datasets wandb safetensors xformers
!git clone https://github.com/huggingface/diffusers && cd diffusers && pip -q install -e .
!mkdir -p /kaggle/working/data/instance /kaggle/working/data/class /kaggle/working/output

  • Lade deine Bilder + Captions nach /kaggle/working/data/instance (per „Upload“ links) und ggf. Klassenbilder nach /class.

A.2 Training starten (SDXL‑LoRA)

Minimal‑Kommando (Beispiel – anpassen!):

python diffusers/examples/text_to_image/train_text_to_image_lora_sdxl.py \
  --pretrained_model_name_or_path="stabilityai/stable-diffusion-xl-base-1.0" \
  --pretrained_vae_model_name_or_path="madebyollin/sdxl-vae-fp16-fix" \
  --dataset_name="/kaggle/working/data" \
  --instance_data_dir="/kaggle/working/data/instance" \
  --caption_column="caption" \
  --resolution=1024 \
  --train_batch_size=2 \
  --gradient_accumulation_steps=1 \
  --mixed_precision="bf16" \
  --snr_gamma=5.0 \
  --rank=32 \
  --learning_rate=1e-4 \
  --text_encoder_lr=3e-4 \
  --max_train_steps=1200 \
  --output_dir="/kaggle/working/output" \
  --report_to="none"

Tipps:

  • Weniger VRAM? --train_batch_size=1, --rank=16, --gradient_checkpointing ergänzen.
  • Overfitting? Schritte senken (z. B. 800–1200), Datensatz mit Varianz erweitern.
  • Zu generisch? Bessere Captions & klarer <TOK> nutzen.

A.3 LoRA verwenden (A1111/ComfyUI)

  • Resultat liegt in /kaggle/working/output – lade die .safetensors herunter.
  • In AUTOMATIC1111: Ordner models/Lora/ → LoRA laden → Prompt: "<lora:DEIN_LORA:0.8> a portrait of <TOK> man, ..."

5) Weg B (GUI, super‑einfach): RunPod + Kohya GUI (low‑cost)

B.1 Pod starten

  1. RunPod Konto → TemplatesKohya_ss oder A1111/ComfyUI Template wählen.
  2. GPU (z. B. 3090/4090/A100) + Volume anlegen → Deploy.
  3. Nach Start: über die angezeigten HTTP‑Ports auf Kohya GUI (z. B. Port 3010) verbinden.

B.2 Daten & Captioning

  • Deine Bilder in den im Template vorgesehenen Ordner laden.
  • In Kohya GUI › Utilities: BLIP Captioning ausführen (Feinschliff später per Hand ok).
  • Optional: Regularization Images für die passende Klasse herunterladen/einbinden.

B.3 LoRA/DreamBooth trainieren (SDXL)

  • Model/Network: SDXL‑Base + passendes VAE.
  • Network Rank/Alpha: z. B. 16–32 / 8–16 (Startwerte).
  • Resolution: 1024.
  • LR: 1e‑4 (UNet), 3e‑4 (Text‑Encoder wenn aktiv).
  • Min‑SNR Gamma: 5.0.
  • Epochs/Steps: 800–1500 (abhängig von Bildanzahl/Varianz).
  • Validation Prompt: mit <TOK> testen.
  • Start → nach Abschluss .safetensors herunterladen.

6) Weg C (lokal): Windows mit NVIDIA (8–24 GB VRAM)

C.1 Inferenz‑UIs

  • AUTOMATIC1111 WebUI: schnelle Nutzung/Tests.
  • ComfyUI Desktop: node‑basiert, stabil & modular (inkl. Manager für Add‑ons).

C.2 Training lokal (Kohya GUI)

  • Python + Git installieren → Kohya GUI klonen → setup.bat/launch.py → GUI starten.
  • Workflow wie in Weg B (Daten, Captioning, Parameter).
  • Tipp: Für SDXL mindestens 12–16 GB VRAM angenehm; mit --xformers, kleineren Ranks/Batch‑Sizes arbeiten.

7) Best Practices (kompakt)

  • Datenkuratiert > Hyperparameter‑Magie. Cleanup lohnt sich am meisten.
  • Varianz im Datensatz (Posen/Licht/Hintergrund) → bessere Generalisierung.
  • Klare Captions: kurze, präzise, konsistent; <TOK> immer drin.
  • Pivotal Tuning (Textual‑Inversion‑Phase + LoRA) kann Gesichter stabilisieren.
  • Min‑SNR (≈5) hilft oft gegen Matsch/Artefakte.
  • Reg‑Bilder nutzen, wenn Stil/„Klasse“ wegrutscht.
  • Checkpoints oft testen (alle 200–300 Steps) → früh stoppen statt übertrainieren.
  • Versionieren (Ordner/Dateiname mit Datum/Steps).
  • VRAM knapp? Rank/BW reduzieren, Gradient‑Checkpointing, Batch=1, 768 statt 1024.
  • Recht & Ethik: Nur eigene/rechtmäßige Fotos; Einwilligungen sichern; keine Irreführung.

8) 10 clevere Einsatzmöglichkeiten

  1. Brand‑Avatar/Maskottchen: wiedererkennbar in jedem Setting.
  2. Kampagnen‑Serien: gleiche Person/Produkt in 20 Looks.
  3. Fashion‑Lookbooks: Outfits, Posen, Locations variieren – gleiche Ästhetik.
  4. Porträt‑Sets: Corporate‑Heads in konsistentem Stil.
  5. Produkt‑Mockups: Verpackung/Objekte skaliert in Szenen.
  6. Architektur/Interior: Material‑ oder Licht‑Stile als LoRA.
  7. Storyboard/Pre‑Viz: Figuren & Orte wiederkehrend.
  8. Editorial‑Stile: eigenständige Farb‑/Grain‑Signatur.
  9. Education/Workshops: eigenes Demo‑Modell für Lehrzwecke.
  10. Social‑Content: Serien mit Serien‑Look, hoher Wiedererkennungswert.

9) Troubleshooting (kurz)

  • VRAM‑Fehler (CUDA OOM): Batch runter (1), --rank ↓, Auflösung 768, Gradient‑Checkpointing an.
  • Gesicht inkonsistent: mehr Close‑ups, Captions präziser, Pivotal Tuning aktivieren, Steps leicht hoch.
  • „Alles sieht gleich aus“: Datensatz diverser machen, Reg‑Bilder, LR minimal senken.
  • Artefakte/Weird Textures: höherwertige Quellbilder, Min‑SNR beibehalten, weniger Repeats/Steps.

10) Nützliche Links (offizielle Docs & solide Ressourcen)


11) Mini‑Cheatsheet (SDXL‑LoRA Hyperparameter – Startwerte)

  • Resolution: 1024
  • Rank: 16–32
  • LR: UNet 1e‑4 / Text‑Encoder 3e‑4 (wenn aktiv)
  • Min‑SNR Gamma: 5.0
  • Steps: 800–1500 (abhängig von Datenvielfalt)
  • Batch: 1–2
  • Validation: alle 200–300 Steps Bild checken

Passe alles an deine VRAM‑Grenzen & Datensatz‑Varianz an – teste früh, stoppe rechtzeitig.


12) Sicherheit, Recht & Sauberkeit

  • Einwilligungen von abgebildeten Personen sichern (DSGVO).
  • Meta‑Daten prüfen/entfernen (EXIF), sensible Infos vermeiden.
  • Keine Verwechslungsgefahr mit Promis/realen Dritten erzeugen.
  • Transparenz: Bei Veröffentlichung Herkunft/Methodik fair angeben (z. B. „Synthography“‑Hinweis).


Entdecke mehr von Der BROWNZ Blog

Melde dich für ein Abonnement an, um die neuesten Beiträge per E-Mail zu erhalten.