Dein KI-Fotomodel: Kostenlos & Effektiv Trainieren

Filed under: Making of, Tools — Hinterlasse einen Kommentar

14. August 2025

Dein eigenes KI‑Fotomodell aus Fotos trainieren (kostenfrei & low‑cost)

Ziel: Du baust dir ein persönliches Bild‑Modell (z. B. für Personen, Produkte, einen Stil), das du überall wiederverwenden kannst – ideal für konsistente Serien, Kampagnen & Looks.

1) Was genau trainierst du?

LoRA (Low‑Rank Adaptation): kleines Zusatz‑Gewicht, schnell & günstig zu trainieren, super für Personen/Stile. Ergebnis: .safetensors (ein paar MB).
DreamBooth: feintuned Checkpoint (größer), lernt die Person/den Stil „schwerer“. Heute oft DreamBooth‑LoRA (Kombi) für SDXL.
Textual Inversion: lernt nur ein neues Prompt‑Token (extrem klein), schwächer als LoRA, aber simpel.

Für 2025 empfehle ich: SDXL‑LoRA (ggf. mit DreamBooth‑Techniken) – beste Balance aus Qualität, Kosten & Reproduzierbarkeit.

2) Deine Optionen (kostenfrei → günstig)

Kaggle Notebooks (kostenfrei, GPU‑Kontingent)
- Vorteil: gratis T4/P100 GPU (Wochenkontingent, Sessions limitiert).
- Nachteil: Limits/Timeouts; Upload/Download via Notebook.
Google Colab Free (kostenfrei, aber schwankend)
- Vorteil: schneller Start.
- Nachteil: GPU nicht garantiert, Zeitlimits, Disconnects.
Hugging Face Spaces
- Vorteil: No‑Code‑UIs existieren.
- Nachteil: Für GPU meist kostenpflichtig (oder Warteschlangen).
Low‑Cost GPU‑Cloud (RunPod, Vast.ai)
- Vorteil: planbar, flott (RTX 4090/A100), GUI‑Templates (Kohya, A1111).
- Nachteil: ein paar Euro pro Stunde.
Lokal (Windows/macOS/Linux, NVIDIA 8–24 GB VRAM empfohlen)
- Vorteil: volle Kontrolle, keine Limits.
- Nachteil: Setup/VRAM nötig.

3) Datensatz: So bereitest du deine Fotos vor

Motiv‑Varianz: Nah/halb/ganzer Körper, verschiedene Kleidung, Licht, Hintergründe, Blickrichtungen, Emotionen.
Gesichter: Möglichst nur dein Zielgesicht, keine Neben‑Gesichter.
Qualität > Menge: Scharf, gut belichtet; verwackelte/duplizierte Bilder raus.
Auflösung: 768–1024 px kürzere Kante; SDXL arbeitet nativ gern mit 1024.
Captioning: Schreibe pro Bild kurze, präzise Beschreibungen (oder auto‑generieren via BLIP).
Reg‑Bilder (optional, DreamBooth): Klassenbilder („man“, „woman“, „backpack“, …) zur Stil‑Erhaltung.
Rechtliches: Nur Bilder mit Nutzungsrechten/Einwilligung; sensible Daten vermeiden.

Ordnerstruktur (Beispiel):

/data
  /instance      # deine Trainingsfotos + .txt-Captions
  /class         # optionale Regularization-Bilder

Caption‑Beispiele:

"a portrait photo of <TOK> man, studio lighting, close-up, neutral background"
"a full body photo of <TOK> man, streetwear, urban background, evening"

<TOK> = dein Trigger‑Wort (seltenes Token, z. B. „sksperson“).

4) Weg A (100% kostenfrei): Kaggle + Diffusers (SDXL‑LoRA)

A.1 Notebook vorbereiten

Neues Kaggle Notebook → GPU aktivieren → Python.
Pakete installieren & Daten einbinden:

!pip -q install --upgrade pip
!pip -q install accelerate transformers peft diffusers==0.31.0 bitsandbytes datasets wandb safetensors xformers
!git clone https://github.com/huggingface/diffusers && cd diffusers && pip -q install -e .
!mkdir -p /kaggle/working/data/instance /kaggle/working/data/class /kaggle/working/output

Lade deine Bilder + Captions nach /kaggle/working/data/instance (per „Upload“ links) und ggf. Klassenbilder nach /class.

A.2 Training starten (SDXL‑LoRA)

Minimal‑Kommando (Beispiel – anpassen!):

python diffusers/examples/text_to_image/train_text_to_image_lora_sdxl.py \
  --pretrained_model_name_or_path="stabilityai/stable-diffusion-xl-base-1.0" \
  --pretrained_vae_model_name_or_path="madebyollin/sdxl-vae-fp16-fix" \
  --dataset_name="/kaggle/working/data" \
  --instance_data_dir="/kaggle/working/data/instance" \
  --caption_column="caption" \
  --resolution=1024 \
  --train_batch_size=2 \
  --gradient_accumulation_steps=1 \
  --mixed_precision="bf16" \
  --snr_gamma=5.0 \
  --rank=32 \
  --learning_rate=1e-4 \
  --text_encoder_lr=3e-4 \
  --max_train_steps=1200 \
  --output_dir="/kaggle/working/output" \
  --report_to="none"

Tipps:

Weniger VRAM? --train_batch_size=1, --rank=16, --gradient_checkpointing ergänzen.
Overfitting? Schritte senken (z. B. 800–1200), Datensatz mit Varianz erweitern.
Zu generisch? Bessere Captions & klarer <TOK> nutzen.

A.3 LoRA verwenden (A1111/ComfyUI)

Resultat liegt in /kaggle/working/output – lade die .safetensors herunter.
In AUTOMATIC1111: Ordner models/Lora/ → LoRA laden → Prompt: "<lora:DEIN_LORA:0.8> a portrait of <TOK> man, ..."

5) Weg B (GUI, super‑einfach): RunPod + Kohya GUI (low‑cost)

B.1 Pod starten

RunPod Konto → Templates → Kohya_ss oder A1111/ComfyUI Template wählen.
GPU (z. B. 3090/4090/A100) + Volume anlegen → Deploy.
Nach Start: über die angezeigten HTTP‑Ports auf Kohya GUI (z. B. Port 3010) verbinden.

B.2 Daten & Captioning

Deine Bilder in den im Template vorgesehenen Ordner laden.
In Kohya GUI › Utilities: BLIP Captioning ausführen (Feinschliff später per Hand ok).
Optional: Regularization Images für die passende Klasse herunterladen/einbinden.

B.3 LoRA/DreamBooth trainieren (SDXL)

Model/Network: SDXL‑Base + passendes VAE.
Network Rank/Alpha: z. B. 16–32 / 8–16 (Startwerte).
Resolution: 1024.
LR: 1e‑4 (UNet), 3e‑4 (Text‑Encoder wenn aktiv).
Min‑SNR Gamma: 5.0.
Epochs/Steps: 800–1500 (abhängig von Bildanzahl/Varianz).
Validation Prompt: mit <TOK> testen.
Start → nach Abschluss .safetensors herunterladen.

6) Weg C (lokal): Windows mit NVIDIA (8–24 GB VRAM)

C.1 Inferenz‑UIs

AUTOMATIC1111 WebUI: schnelle Nutzung/Tests.
ComfyUI Desktop: node‑basiert, stabil & modular (inkl. Manager für Add‑ons).

C.2 Training lokal (Kohya GUI)

Python + Git installieren → Kohya GUI klonen → setup.bat/launch.py → GUI starten.
Workflow wie in Weg B (Daten, Captioning, Parameter).
Tipp: Für SDXL mindestens 12–16 GB VRAM angenehm; mit --xformers, kleineren Ranks/Batch‑Sizes arbeiten.

7) Best Practices (kompakt)

Datenkuratiert > Hyperparameter‑Magie. Cleanup lohnt sich am meisten.
Varianz im Datensatz (Posen/Licht/Hintergrund) → bessere Generalisierung.
Klare Captions: kurze, präzise, konsistent; <TOK> immer drin.
Pivotal Tuning (Textual‑Inversion‑Phase + LoRA) kann Gesichter stabilisieren.
Min‑SNR (≈5) hilft oft gegen Matsch/Artefakte.
Reg‑Bilder nutzen, wenn Stil/„Klasse“ wegrutscht.
Checkpoints oft testen (alle 200–300 Steps) → früh stoppen statt übertrainieren.
Versionieren (Ordner/Dateiname mit Datum/Steps).
VRAM knapp? Rank/BW reduzieren, Gradient‑Checkpointing, Batch=1, 768 statt 1024.
Recht & Ethik: Nur eigene/rechtmäßige Fotos; Einwilligungen sichern; keine Irreführung.

8) 10 clevere Einsatzmöglichkeiten

Brand‑Avatar/Maskottchen: wiedererkennbar in jedem Setting.
Kampagnen‑Serien: gleiche Person/Produkt in 20 Looks.
Fashion‑Lookbooks: Outfits, Posen, Locations variieren – gleiche Ästhetik.
Porträt‑Sets: Corporate‑Heads in konsistentem Stil.
Produkt‑Mockups: Verpackung/Objekte skaliert in Szenen.
Architektur/Interior: Material‑ oder Licht‑Stile als LoRA.
Storyboard/Pre‑Viz: Figuren & Orte wiederkehrend.
Editorial‑Stile: eigenständige Farb‑/Grain‑Signatur.
Education/Workshops: eigenes Demo‑Modell für Lehrzwecke.
Social‑Content: Serien mit Serien‑Look, hoher Wiedererkennungswert.

9) Troubleshooting (kurz)

VRAM‑Fehler (CUDA OOM): Batch runter (1), --rank ↓, Auflösung 768, Gradient‑Checkpointing an.
Gesicht inkonsistent: mehr Close‑ups, Captions präziser, Pivotal Tuning aktivieren, Steps leicht hoch.
„Alles sieht gleich aus“: Datensatz diverser machen, Reg‑Bilder, LR minimal senken.
Artefakte/Weird Textures: höherwertige Quellbilder, Min‑SNR beibehalten, weniger Repeats/Steps.

10) Nützliche Links (offizielle Docs & solide Ressourcen)

Hugging Face – DreamBooth (Diffusers):
https://huggingface.co/docs/diffusers/en/training/dreambooth
Hugging Face – Textual Inversion:
https://huggingface.co/docs/diffusers/en/training/text_inversion
Hugging Face – LoRA Training (Diffusers):
https://huggingface.co/docs/diffusers/training/lora
SDXL Nutzung & Training (Diffusers):
https://huggingface.co/docs/diffusers/en/using-diffusers/sdxl
https://github.com/huggingface/diffusers/blob/main/examples/text_to_image/train_text_to_image_lora_sdxl.py
https://huggingface.co/blog/sdxl_lora_advanced_script
Kohya sd‑scripts (Core‑Trainer, CLI):
https://github.com/kohya-ss/sd-scripts
Kohya GUI (bmaltais):
https://github.com/bmaltais/kohya_ss
AUTOMATIC1111 (WebUI, Inferenz):
https://github.com/AUTOMATIC1111/stable-diffusion-webui
ComfyUI (node‑basiert, Desktop):
https://github.com/comfyanonymous/ComfyUI
ComfyUI Desktop: https://github.com/Comfy-Org/desktop
ComfyUI‑Manager: https://github.com/Comfy-Org/ComfyUI-Manager
Reg‑Bilder (Klassenbilder):
https://github.com/Luehrsen/sd_regularization_images
Kaggle – GPU‑Kontingent (Info‑Thread):
https://www.kaggle.com/discussions/general/108481
RunPod (Templates/Serverless):
https://docs.runpod.io/pods/templates/overview
https://www.runpod.io/articles/guides/stable-diffusion-a1111
https://www.runpod.io/articles/guides/stable-diffusion-web-ui-10-2-1
Vast.ai (Live‑Preise):
https://vast.ai/pricing

11) Mini‑Cheatsheet (SDXL‑LoRA Hyperparameter – Startwerte)

Resolution: 1024
Rank: 16–32
LR: UNet 1e‑4 / Text‑Encoder 3e‑4 (wenn aktiv)
Min‑SNR Gamma: 5.0
Steps: 800–1500 (abhängig von Datenvielfalt)
Batch: 1–2
Validation: alle 200–300 Steps Bild checken

Passe alles an deine VRAM‑Grenzen & Datensatz‑Varianz an – teste früh, stoppe rechtzeitig.

12) Sicherheit, Recht & Sauberkeit

Einwilligungen von abgebildeten Personen sichern (DSGVO).
Meta‑Daten prüfen/entfernen (EXIF), sensible Infos vermeiden.
Keine Verwechslungsgefahr mit Promis/realen Dritten erzeugen.
Transparenz: Bei Veröffentlichung Herkunft/Methodik fair angeben (z. B. „Synthography“‑Hinweis).

Entdecke mehr von Der BROWNZ Blog

Melde dich für ein Abonnement an, um die neuesten Beiträge per E-Mail zu erhalten.

Schlagwörter: ai, model, training

Comments RSS feed

Hinterlasse einen Kommentar Antwort abbrechen

Archiv
Archiv
Top-Beiträge und Top-Seiten
Peter Brownz Braunschmid

Peter Brownz Braunschmid
Follow Blog via Email

Enter your email address to follow this blog and receive notifications of new posts by email.

E-Mail-Adresse:

Schließe dich 35 Tsd. anderen Abonnenten an

Der BROWNZ Blog

BROWNZ.hub 2025/26

Blog per E-Mail abonnieren

Dein KI-Fotomodel: Kostenlos & Effektiv Trainieren

Dein eigenes KI‑Fotomodell aus Fotos trainieren (kostenfrei & low‑cost)

1) Was genau trainierst du?

2) Deine Optionen (kostenfrei → günstig)

3) Datensatz: So bereitest du deine Fotos vor

4) Weg A (100% kostenfrei): Kaggle + Diffusers (SDXL‑LoRA)

A.1 Notebook vorbereiten

A.2 Training starten (SDXL‑LoRA)

A.3 LoRA verwenden (A1111/ComfyUI)

5) Weg B (GUI, super‑einfach): RunPod + Kohya GUI (low‑cost)

B.1 Pod starten

B.2 Daten & Captioning

B.3 LoRA/DreamBooth trainieren (SDXL)

6) Weg C (lokal): Windows mit NVIDIA (8–24 GB VRAM)

C.1 Inferenz‑UIs

C.2 Training lokal (Kohya GUI)

7) Best Practices (kompakt)

8) 10 clevere Einsatzmöglichkeiten

9) Troubleshooting (kurz)

10) Nützliche Links (offizielle Docs & solide Ressourcen)

11) Mini‑Cheatsheet (SDXL‑LoRA Hyperparameter – Startwerte)

12) Sicherheit, Recht & Sauberkeit

Entdecke mehr von Der BROWNZ Blog

Hinterlasse einen Kommentar Antwort abbrechen

Archiv

Top-Beiträge und Top-Seiten

Peter Brownz Braunschmid

Follow Blog via Email

Friends & links

Seiten

Monatliche Archive

Der BROWNZ Blog

BROWNZ.hub 2025/26

Blog per E-Mail abonnieren

Dein KI-Fotomodel: Kostenlos & Effektiv Trainieren

Dein eigenes KI‑Fotomodell aus Fotos trainieren (kostenfrei & low‑cost)

1) Was genau trainierst du?

2) Deine Optionen (kostenfrei → günstig)

3) Datensatz: So bereitest du deine Fotos vor

4) Weg A (100% kostenfrei): Kaggle + Diffusers (SDXL‑LoRA)

A.1 Notebook vorbereiten

A.2 Training starten (SDXL‑LoRA)

A.3 LoRA verwenden (A1111/ComfyUI)

5) Weg B (GUI, super‑einfach): RunPod + Kohya GUI (low‑cost)

B.1 Pod starten

B.2 Daten & Captioning

B.3 LoRA/DreamBooth trainieren (SDXL)

6) Weg C (lokal): Windows mit NVIDIA (8–24 GB VRAM)

C.1 Inferenz‑UIs

C.2 Training lokal (Kohya GUI)

7) Best Practices (kompakt)

8) 10 clevere Einsatzmöglichkeiten

9) Troubleshooting (kurz)

10) Nützliche Links (offizielle Docs & solide Ressourcen)

11) Mini‑Cheatsheet (SDXL‑LoRA Hyperparameter – Startwerte)

12) Sicherheit, Recht & Sauberkeit

Entdecke mehr von Der BROWNZ Blog

Teilen mit:

Hinterlasse einen Kommentar Antwort abbrechen

Archiv

Top-Beiträge und Top-Seiten

Peter Brownz Braunschmid

Follow Blog via Email

Friends & links

Seiten

Monatliche Archive

6) Weg C (lokal): Windows mit NVIDIA (8–24 GB VRAM)