ComfyUI para principiantes: tu primera imagen con SDXL paso a paso

TL;DR: La interfaz de nodos de ComfyUI abruma al principio. Pero el workflow por defecto es más simple de lo que parece: cargas un modelo → escribes un prompt → generas. Te explico cada nodo y cada conexión para que no te pierdas.

La interfaz de ComfyUI explicada

Cuando abres http://127.0.0.1:8188 por primera vez, ves un montón de cajas conectadas con flechas. Cada caja es un nodo (un paso del proceso), y cada flecha es un cable (datos que pasan de un paso al siguiente).

Piensa en ello como una cadena de montaje:

[Checkpoint] → [Prompt positivo] → [Sampler] → [VAE Decode] → [Guardar imagen]
             → [Prompt negativo] ↗

No es más complicado que eso.

Paso 1: Cargar el workflow por defecto

Si ves un workflow extraño (como uno de Qwen Image Edit), carga el correcto:

Menú → Workflow → New (o “Default”)
Aparece el workflow básico con 5-6 nodos conectados

Paso 2: Entender los nodos

Nodo: Load Checkpoint

Es el modelo de IA. Aquí seleccionas qué modelo usar.

ckpt_name: Despliega y selecciona sd_xl_base_1.0.safetensors
Esto carga ~6.5 GB en VRAM (tarjeta gráfica)

Salidas del nodo:

MODEL → va al KSampler (el motor de generación)
CLIP → va a los nodos de texto (interpreta tu prompt)
VAE → va al decodificador (convierte latentes en imagen)

Nodo: CLIP Text Encode (Positive)

Aquí escribes lo que QUIERES ver. Tu prompt.

A red bicycle on a rainy street, cinematic photo, natural lighting, 4k

Consejos para prompts con SDXL:

Describir la escena completa, no solo el sujeto
Añadir estilo: “cinematic photo”, “digital art”, “oil painting”
SDXL entiende inglés natural, no necesitas tags separados por comas (pero funcionan)

Ponderación de palabras clave

Puedes dar más o menos peso a una palabra con paréntesis:

(red:1.3) bicycle on a rainy street   → más rojo
(blurry:0.5)                         → menos blurry

(palabra:1.0) = peso normal. Valores >1.0 refuerzan, <1.0 suavizan. Rango seguro: 0.5–1.5.

Nodo: CLIP Text Encode (Negative)

Aquí escribes lo que NO QUIERES ver.

blurry, low quality, deformed, ugly, watermark, text

Nodo: KSampler

El motor de generación. Los parámetros clave:

Parámetro	Qué hace	Valor recomendado
steps	Iteraciones del proceso. Más = más calidad pero más lento	20-30 para SDXL
cfg	Cuánto sigue el prompt. Alto = más fiel, bajo = más creativo	Depende del modelo (ver abajo)

️ CFG: el error #1 de principiantes

El valor de CFG no es universal. Depende del modelo que uses:

Modelo	CFG correcto	CFG incorrecto (rompe la imagen)
SDXL	7.0–8.0	< 4 (ignora el prompt)
SD 1.5	6.0–8.0	> 12 (saturación extrema)
Flux	1.0–1.5	> 3 (destruye la imagen)

Para tu primera imagen, deja todo como está y solo cambia el seed si quieres variaciones.

Nodo: VAE Decode

Convierte los datos internos (latentes) en una imagen visible. No tienes que tocar nada aquí.

Nodo: Save Image

Guarda la imagen generada. Puedes cambiar el prefijo del nombre del archivo.

Paso 3: Generar

Selecciona sd_xl_base_1.0.safetensors en Load Checkpoint
Escribe tu prompt en el nodo CLIP Text Encode (positive)
Haz clic en Queue Prompt (botón verde, arriba a la izquierda)
Espera 10-30 segundos (depende de steps y tu GPU)
La imagen aparece en el nodo Save Image o Preview Image

¡Listo! Ya generaste tu primera imagen con IA local, sin enviar nada a la nube.

Atajos de teclado esenciales

Atajo	Acción
`Ctrl+Enter`	Queue Prompt (generar)
`Click` en canvas	Deseleccionar todo
`Click` en nodo	Seleccionar nodo
`Click` en entrada/salida	Ver tooltip del tipo de dato
`Arrastrar` de salida a entrada	Conectar nodos
`Doble click` en canvas	Buscar nodo
`Backspace`	Borrar nodo seleccionado
`Ctrl+Z`	Deshacer

Resolución y aspecto

SDXL está entrenado en ~1 megapixel total, no solo en 1024×1024 cuadrado. Puedes cambiar la resolución en los nodos Empty Latent Image:

Resolución	Megapixels	Aspecto	Uso
1024×1024	1.05 MP	1:1 Cuadrado	Retratos, objetos
1152×896	1.03 MP	4:3 Horizontal	Escenas generales
896×1152	1.03 MP	3:4 Vertical	Retratos, posters
1216×832	1.01 MP	~16:9 Panorámica	Paisajes anchos
832×1216	1.01 MP	~9:16 Vertical	Stories, mobile

La regla: mantente cerca de 1 millón de píxeles totales. No bajes de 768×768 (0.59 MP) ni subas de 1536×1536 (2.36 MP) sin upscaler.

Modelo	Resolución base	Rango seguro
SDXL	~1 MP (no solo 1024×1024)	768×768 a 1344×768
SD 1.5	512×512 (0.26 MP)	512×512 a 768×512
Flux	1024×1024+	1024×1024 a 2048×2048

Guarda tu trabajo (en serio)

ComfyUI no tiene auto-save. Si se cierra el navegador o se cuelga, pierdes el workflow.

Ctrl+S (o Cmd+S en Mac) para guardar el workflow como .json
Guárdalo con nombre descriptivo: mi-retrato-v1.json
Si haces un cambio que funciona, guarda inmediatamente
Puedes activar auto-save en Settings → Auto-Save Workflows

Los workflows son archivos JSON pequeños que puedes compartir, versionar, y reutilizar.

No te preocupes por los cables

Al principio, los cables entre nodos parecen un spaguetti. Pero cada cable tiene un color según el tipo de dato:

Magenta = MODEL (el modelo de difusión)
Amarillo = CLIP (el codificador de texto)
Rosa = CONDITIONING (el prompt procesado)
Verde = LATENT (la imagen en formato interno)
Azul = IMAGE (la imagen visible)

Si un cable no encaja, ComfyUI no te deja conectarlo. No puedes romper nada cableando mal.

Próximos pasos

Ahora que sabes generar imágenes, en el siguiente post te explico cómo instalar ComfyUI-Manager para añadir nodos adicionales: ControlNet, upscalers, Flux, y mucho más.

Serie: IA de imagen local en RTX 5080

Instalar ComfyUI en RTX 5080: setup, lecciones y por qué Fooocus ya no sirve
ComfyUI para principiantes: tu primera imagen con SDXL paso a paso ← estás aquí
ComfyUI-Manager y custom nodes: ControlNet, upscalers y más
InvokeAI: la alternativa con UI simple para generación casual