Dein eigenes KI‑Fotomodell aus Fotos trainieren (kostenfrei & low‑cost)
Ziel: Du baust dir ein persönliches Bild‑Modell (z. B. für Personen, Produkte, einen Stil), das du überall wiederverwenden kannst – ideal für konsistente Serien, Kampagnen & Looks.

1) Was genau trainierst du?
- LoRA (Low‑Rank Adaptation): kleines Zusatz‑Gewicht, schnell & günstig zu trainieren, super für Personen/Stile. Ergebnis: .safetensors (ein paar MB).
- DreamBooth: feintuned Checkpoint (größer), lernt die Person/den Stil „schwerer“. Heute oft DreamBooth‑LoRA (Kombi) für SDXL.
- Textual Inversion: lernt nur ein neues Prompt‑Token (extrem klein), schwächer als LoRA, aber simpel.
Für 2025 empfehle ich: SDXL‑LoRA (ggf. mit DreamBooth‑Techniken) – beste Balance aus Qualität, Kosten & Reproduzierbarkeit.
2) Deine Optionen (kostenfrei → günstig)
- Kaggle Notebooks (kostenfrei, GPU‑Kontingent)
- Vorteil: gratis T4/P100 GPU (Wochenkontingent, Sessions limitiert).
- Nachteil: Limits/Timeouts; Upload/Download via Notebook.
- Google Colab Free (kostenfrei, aber schwankend)
- Vorteil: schneller Start.
- Nachteil: GPU nicht garantiert, Zeitlimits, Disconnects.
- Hugging Face Spaces
- Vorteil: No‑Code‑UIs existieren.
- Nachteil: Für GPU meist kostenpflichtig (oder Warteschlangen).
- Low‑Cost GPU‑Cloud (RunPod, Vast.ai)
- Vorteil: planbar, flott (RTX 4090/A100), GUI‑Templates (Kohya, A1111).
- Nachteil: ein paar Euro pro Stunde.
- Lokal (Windows/macOS/Linux, NVIDIA 8–24 GB VRAM empfohlen)
- Vorteil: volle Kontrolle, keine Limits.
- Nachteil: Setup/VRAM nötig.
3) Datensatz: So bereitest du deine Fotos vor
- Motiv‑Varianz: Nah/halb/ganzer Körper, verschiedene Kleidung, Licht, Hintergründe, Blickrichtungen, Emotionen.
- Gesichter: Möglichst nur dein Zielgesicht, keine Neben‑Gesichter.
- Qualität > Menge: Scharf, gut belichtet; verwackelte/duplizierte Bilder raus.
- Auflösung: 768–1024 px kürzere Kante; SDXL arbeitet nativ gern mit 1024.
- Captioning: Schreibe pro Bild kurze, präzise Beschreibungen (oder auto‑generieren via BLIP).
- Reg‑Bilder (optional, DreamBooth): Klassenbilder („man“, „woman“, „backpack“, …) zur Stil‑Erhaltung.
- Rechtliches: Nur Bilder mit Nutzungsrechten/Einwilligung; sensible Daten vermeiden.
Ordnerstruktur (Beispiel):
/data
/instance # deine Trainingsfotos + .txt-Captions
/class # optionale Regularization-Bilder
Caption‑Beispiele:
"a portrait photo of <TOK> man, studio lighting, close-up, neutral background"
"a full body photo of <TOK> man, streetwear, urban background, evening"
<TOK> = dein Trigger‑Wort (seltenes Token, z. B. „sksperson“).
4) Weg A (100% kostenfrei): Kaggle + Diffusers (SDXL‑LoRA)
A.1 Notebook vorbereiten
- Neues Kaggle Notebook → GPU aktivieren → Python.
- Pakete installieren & Daten einbinden:
!pip -q install --upgrade pip
!pip -q install accelerate transformers peft diffusers==0.31.0 bitsandbytes datasets wandb safetensors xformers
!git clone https://github.com/huggingface/diffusers && cd diffusers && pip -q install -e .
!mkdir -p /kaggle/working/data/instance /kaggle/working/data/class /kaggle/working/output
- Lade deine Bilder + Captions nach
/kaggle/working/data/instance(per „Upload“ links) und ggf. Klassenbilder nach/class.
A.2 Training starten (SDXL‑LoRA)
Minimal‑Kommando (Beispiel – anpassen!):
python diffusers/examples/text_to_image/train_text_to_image_lora_sdxl.py \
--pretrained_model_name_or_path="stabilityai/stable-diffusion-xl-base-1.0" \
--pretrained_vae_model_name_or_path="madebyollin/sdxl-vae-fp16-fix" \
--dataset_name="/kaggle/working/data" \
--instance_data_dir="/kaggle/working/data/instance" \
--caption_column="caption" \
--resolution=1024 \
--train_batch_size=2 \
--gradient_accumulation_steps=1 \
--mixed_precision="bf16" \
--snr_gamma=5.0 \
--rank=32 \
--learning_rate=1e-4 \
--text_encoder_lr=3e-4 \
--max_train_steps=1200 \
--output_dir="/kaggle/working/output" \
--report_to="none"
Tipps:
- Weniger VRAM?
--train_batch_size=1,--rank=16,--gradient_checkpointingergänzen. - Overfitting? Schritte senken (z. B. 800–1200), Datensatz mit Varianz erweitern.
- Zu generisch? Bessere Captions & klarer
<TOK>nutzen.
A.3 LoRA verwenden (A1111/ComfyUI)
- Resultat liegt in
/kaggle/working/output– lade die .safetensors herunter. - In AUTOMATIC1111: Ordner
models/Lora/→ LoRA laden → Prompt:"<lora:DEIN_LORA:0.8> a portrait of <TOK> man, ..."
5) Weg B (GUI, super‑einfach): RunPod + Kohya GUI (low‑cost)
B.1 Pod starten
- RunPod Konto → Templates → Kohya_ss oder A1111/ComfyUI Template wählen.
- GPU (z. B. 3090/4090/A100) + Volume anlegen → Deploy.
- Nach Start: über die angezeigten HTTP‑Ports auf Kohya GUI (z. B. Port 3010) verbinden.
B.2 Daten & Captioning
- Deine Bilder in den im Template vorgesehenen Ordner laden.
- In Kohya GUI › Utilities: BLIP Captioning ausführen (Feinschliff später per Hand ok).
- Optional: Regularization Images für die passende Klasse herunterladen/einbinden.
B.3 LoRA/DreamBooth trainieren (SDXL)
- Model/Network: SDXL‑Base + passendes VAE.
- Network Rank/Alpha: z. B. 16–32 / 8–16 (Startwerte).
- Resolution: 1024.
- LR: 1e‑4 (UNet), 3e‑4 (Text‑Encoder wenn aktiv).
- Min‑SNR Gamma: 5.0.
- Epochs/Steps: 800–1500 (abhängig von Bildanzahl/Varianz).
- Validation Prompt: mit
<TOK>testen. - Start → nach Abschluss .safetensors herunterladen.
6) Weg C (lokal): Windows mit NVIDIA (8–24 GB VRAM)
C.1 Inferenz‑UIs
- AUTOMATIC1111 WebUI: schnelle Nutzung/Tests.
- ComfyUI Desktop: node‑basiert, stabil & modular (inkl. Manager für Add‑ons).
C.2 Training lokal (Kohya GUI)
- Python + Git installieren → Kohya GUI klonen →
setup.bat/launch.py→ GUI starten. - Workflow wie in Weg B (Daten, Captioning, Parameter).
- Tipp: Für SDXL mindestens 12–16 GB VRAM angenehm; mit
--xformers, kleineren Ranks/Batch‑Sizes arbeiten.
7) Best Practices (kompakt)
- Datenkuratiert > Hyperparameter‑Magie. Cleanup lohnt sich am meisten.
- Varianz im Datensatz (Posen/Licht/Hintergrund) → bessere Generalisierung.
- Klare Captions: kurze, präzise, konsistent;
<TOK>immer drin. - Pivotal Tuning (Textual‑Inversion‑Phase + LoRA) kann Gesichter stabilisieren.
- Min‑SNR (≈5) hilft oft gegen Matsch/Artefakte.
- Reg‑Bilder nutzen, wenn Stil/„Klasse“ wegrutscht.
- Checkpoints oft testen (alle 200–300 Steps) → früh stoppen statt übertrainieren.
- Versionieren (Ordner/Dateiname mit Datum/Steps).
- VRAM knapp? Rank/BW reduzieren, Gradient‑Checkpointing, Batch=1, 768 statt 1024.
- Recht & Ethik: Nur eigene/rechtmäßige Fotos; Einwilligungen sichern; keine Irreführung.
8) 10 clevere Einsatzmöglichkeiten
- Brand‑Avatar/Maskottchen: wiedererkennbar in jedem Setting.
- Kampagnen‑Serien: gleiche Person/Produkt in 20 Looks.
- Fashion‑Lookbooks: Outfits, Posen, Locations variieren – gleiche Ästhetik.
- Porträt‑Sets: Corporate‑Heads in konsistentem Stil.
- Produkt‑Mockups: Verpackung/Objekte skaliert in Szenen.
- Architektur/Interior: Material‑ oder Licht‑Stile als LoRA.
- Storyboard/Pre‑Viz: Figuren & Orte wiederkehrend.
- Editorial‑Stile: eigenständige Farb‑/Grain‑Signatur.
- Education/Workshops: eigenes Demo‑Modell für Lehrzwecke.
- Social‑Content: Serien mit Serien‑Look, hoher Wiedererkennungswert.
9) Troubleshooting (kurz)
- VRAM‑Fehler (CUDA OOM): Batch runter (1),
--rank↓, Auflösung 768, Gradient‑Checkpointing an. - Gesicht inkonsistent: mehr Close‑ups, Captions präziser, Pivotal Tuning aktivieren, Steps leicht hoch.
- „Alles sieht gleich aus“: Datensatz diverser machen, Reg‑Bilder, LR minimal senken.
- Artefakte/Weird Textures: höherwertige Quellbilder, Min‑SNR beibehalten, weniger Repeats/Steps.
10) Nützliche Links (offizielle Docs & solide Ressourcen)
- Hugging Face – DreamBooth (Diffusers):
https://huggingface.co/docs/diffusers/en/training/dreambooth - Hugging Face – Textual Inversion:
https://huggingface.co/docs/diffusers/en/training/text_inversion - Hugging Face – LoRA Training (Diffusers):
https://huggingface.co/docs/diffusers/training/lora - SDXL Nutzung & Training (Diffusers):
https://huggingface.co/docs/diffusers/en/using-diffusers/sdxl
https://github.com/huggingface/diffusers/blob/main/examples/text_to_image/train_text_to_image_lora_sdxl.py
https://huggingface.co/blog/sdxl_lora_advanced_script - Kohya sd‑scripts (Core‑Trainer, CLI):
https://github.com/kohya-ss/sd-scripts - Kohya GUI (bmaltais):
https://github.com/bmaltais/kohya_ss - AUTOMATIC1111 (WebUI, Inferenz):
https://github.com/AUTOMATIC1111/stable-diffusion-webui - ComfyUI (node‑basiert, Desktop):
https://github.com/comfyanonymous/ComfyUI
ComfyUI Desktop: https://github.com/Comfy-Org/desktop
ComfyUI‑Manager: https://github.com/Comfy-Org/ComfyUI-Manager - Reg‑Bilder (Klassenbilder):
https://github.com/Luehrsen/sd_regularization_images - Kaggle – GPU‑Kontingent (Info‑Thread):
https://www.kaggle.com/discussions/general/108481 - RunPod (Templates/Serverless):
https://docs.runpod.io/pods/templates/overview
https://www.runpod.io/articles/guides/stable-diffusion-a1111
https://www.runpod.io/articles/guides/stable-diffusion-web-ui-10-2-1 - Vast.ai (Live‑Preise):
https://vast.ai/pricing
11) Mini‑Cheatsheet (SDXL‑LoRA Hyperparameter – Startwerte)
- Resolution: 1024
- Rank: 16–32
- LR: UNet 1e‑4 / Text‑Encoder 3e‑4 (wenn aktiv)
- Min‑SNR Gamma: 5.0
- Steps: 800–1500 (abhängig von Datenvielfalt)
- Batch: 1–2
- Validation: alle 200–300 Steps Bild checken
Passe alles an deine VRAM‑Grenzen & Datensatz‑Varianz an – teste früh, stoppe rechtzeitig.
12) Sicherheit, Recht & Sauberkeit
- Einwilligungen von abgebildeten Personen sichern (DSGVO).
- Meta‑Daten prüfen/entfernen (EXIF), sensible Infos vermeiden.
- Keine Verwechslungsgefahr mit Promis/realen Dritten erzeugen.
- Transparenz: Bei Veröffentlichung Herkunft/Methodik fair angeben (z. B. „Synthography“‑Hinweis).

Entdecke mehr von Der BROWNZ Blog
Melde dich für ein Abonnement an, um die neuesten Beiträge per E-Mail zu erhalten.











