RTX 50xx e IA local: qué modelo instalar según tu GPU (con velocidades reales)

TL;DR: Tienes una RTX 50xx, quieres IA local, y no sabes qué modelo instalar. Aquí está la respuesta directa: tu GPU → tu modelo → tu comando.

Un comando para empezar

# Instalar Ollama (Arch / CachyOS)
sudo pacman -S ollama-cuda
sudo systemctl enable --now ollama

# Tu primer modelo
ollama pull gemma4:e4b
ollama run gemma4:e4b "Hola, ¿me lees?"

Si responde, ya tienes IA local. Sin Docker, sin Python, sin configuración.

La tabla

RTX 5060 — 8 GB VRAM

ollama pull gemma4:e4b

Modelo	VRAM	Tok/s	Qué puedes hacer
gemma4:e4b	~10 GB ✅	140	Chat, código rápido, vision, audio

Solo te cabe uno. Pero a 140 tok/s es más rápido de lo que puedes leer. Es 4.5B parámetros y compite con modelos de 14B en benchmarks. No lo subestimes.

RTX 5070 / 5070 Ti — 12 GB VRAM

ollama pull gemma4:e4b
ollama pull qwen3:14b

Modelo	VRAM	Tok/s	Qué puedes hacer
gemma4:e4b	~10 GB ✅	140	Chat, vision, audio
qwen3:14b	~9 GB ✅	~50	Coding, razonamiento, thinking mode

Los dos pueden convivir. Ollama solo carga uno en VRAM a la vez. El qwen3:14b es tu modelo de “trabajo serio” — tiene thinking mode y tool calling.

RTX 5080 — 16 GB VRAM

ollama pull gemma4:e4b
ollama pull qwen3:14b
ollama pull hf.co/unsloth/Qwen3-Coder-30B-A3B-Instruct-GGUF:UD-Q4_K_XL

Modelo	VRAM	Tok/s	Qué puedes hacer
gemma4:e4b	~10 GB ✅	140	Daily driver
qwen3:14b	~9 GB ✅	~50	General + thinking
qwen3-coder-30b	~14.5 GB ⚠️	7.2	Coding SOTA, agentic

⚠️ El coder-30b necesita offload parcial (14.5 GB GPU + 3.8 GB RAM). Va a 7 tok/s — lento pero usable para coding serio.

Mi configuración diaria: e4b para todo, coder-30b cuando necesito refactorizar código.

RTX 5090 — 32 GB VRAM

ollama pull gemma4:e4b
ollama pull qwen3:14b
ollama pull qwen3.6:35b

Modelo	VRAM	Tok/s	Qué puedes hacer
gemma4:e4b	~10 GB ✅	140	Daily driver
qwen3:14b	~9 GB ✅	~50	General
Qwen3.6-35B-A3B	~22 GB ✅	30-80*	Todo + contexto largo

*Benchmarks de Reddit en RTX 5090: 79 tok/s contexto fresco, 30 tok/s a 128K.

Con 32GB puedes correr modelos grandes enteramente en VRAM. Sin offload. Sin penalización.

Disco necesario

GPU	Modelos	Disco total
5060	gemma4:e4b	~10 GB
5070	e4b + qwen3:14b	~19 GB
5080	e4b + qwen3:14b + coder-30b	~36 GB
5090	e4b + qwen3:14b + qwen3.6:35b	~40 GB

Los modelos comparten blobs internos, así que el disco real es menor a la suma de archivos.

Regla de oro

Un modelo grande a la vez. e4b + qwen3:14b pueden convivir en VRAM. Pero si cargas el coder-30b, no queda espacio para nada más. Ollama descarga modelos de VRAM automáticamente cuando cambias, pero no sirves dos modelos grandes en paralelo.

Hardware de referencia

Todos los datos medidos en:

Componente	Valor
GPU	NVIDIA RTX 5080 Laptop
VRAM	16,303 MiB (15.7 GB útiles)
RAM	30 GB DDR5
OS	CachyOS (Arch)
Driver	595.71.05, CUDA 13.2
Engine	Ollama 0.23.2
Fecha	2026-05-14

Siguiente: El precipicio VRAM — por qué 140 tok/s se convierte en 7 →