RTX 50xx e IA local: qué modelo instalar según tu GPU (con velocidades reales)
TL;DR: Tienes una RTX 50xx, quieres IA local, y no sabes qué modelo instalar. Aquí está la respuesta directa: tu GPU → tu modelo → tu comando.
Un comando para empezar
# Instalar Ollama (Arch / CachyOS)
sudo pacman -S ollama-cuda
sudo systemctl enable --now ollama
# Tu primer modelo
ollama pull gemma4:e4b
ollama run gemma4:e4b "Hola, ¿me lees?"
Si responde, ya tienes IA local. Sin Docker, sin Python, sin configuración.
La tabla
RTX 5060 — 8 GB VRAM
ollama pull gemma4:e4b
| Modelo | VRAM | Tok/s | Qué puedes hacer |
|---|---|---|---|
| gemma4:e4b | ~10 GB ✅ | 140 | Chat, código rápido, vision, audio |
Solo te cabe uno. Pero a 140 tok/s es más rápido de lo que puedes leer. Es 4.5B parámetros y compite con modelos de 14B en benchmarks. No lo subestimes.
RTX 5070 / 5070 Ti — 12 GB VRAM
ollama pull gemma4:e4b
ollama pull qwen3:14b
| Modelo | VRAM | Tok/s | Qué puedes hacer |
|---|---|---|---|
| gemma4:e4b | ~10 GB ✅ | 140 | Chat, vision, audio |
| qwen3:14b | ~9 GB ✅ | ~50 | Coding, razonamiento, thinking mode |
Los dos pueden convivir. Ollama solo carga uno en VRAM a la vez. El qwen3:14b es tu modelo de “trabajo serio” — tiene thinking mode y tool calling.
RTX 5080 — 16 GB VRAM
ollama pull gemma4:e4b
ollama pull qwen3:14b
ollama pull hf.co/unsloth/Qwen3-Coder-30B-A3B-Instruct-GGUF:UD-Q4_K_XL
| Modelo | VRAM | Tok/s | Qué puedes hacer |
|---|---|---|---|
| gemma4:e4b | ~10 GB ✅ | 140 | Daily driver |
| qwen3:14b | ~9 GB ✅ | ~50 | General + thinking |
| qwen3-coder-30b | ~14.5 GB ⚠️ | 7.2 | Coding SOTA, agentic |
⚠️ El coder-30b necesita offload parcial (14.5 GB GPU + 3.8 GB RAM). Va a 7 tok/s — lento pero usable para coding serio.
Mi configuración diaria: e4b para todo, coder-30b cuando necesito refactorizar código.
RTX 5090 — 32 GB VRAM
ollama pull gemma4:e4b
ollama pull qwen3:14b
ollama pull qwen3.6:35b
| Modelo | VRAM | Tok/s | Qué puedes hacer |
|---|---|---|---|
| gemma4:e4b | ~10 GB ✅ | 140 | Daily driver |
| qwen3:14b | ~9 GB ✅ | ~50 | General |
| Qwen3.6-35B-A3B | ~22 GB ✅ | 30-80* | Todo + contexto largo |
*Benchmarks de Reddit en RTX 5090: 79 tok/s contexto fresco, 30 tok/s a 128K.
Con 32GB puedes correr modelos grandes enteramente en VRAM. Sin offload. Sin penalización.
Disco necesario
| GPU | Modelos | Disco total |
|---|---|---|
| 5060 | gemma4:e4b | ~10 GB |
| 5070 | e4b + qwen3:14b | ~19 GB |
| 5080 | e4b + qwen3:14b + coder-30b | ~36 GB |
| 5090 | e4b + qwen3:14b + qwen3.6:35b | ~40 GB |
Los modelos comparten blobs internos, así que el disco real es menor a la suma de archivos.
Regla de oro
Un modelo grande a la vez. e4b + qwen3:14b pueden convivir en VRAM. Pero si cargas el coder-30b, no queda espacio para nada más. Ollama descarga modelos de VRAM automáticamente cuando cambias, pero no sirves dos modelos grandes en paralelo.
Hardware de referencia
Todos los datos medidos en:
| Componente | Valor |
|---|---|
| GPU | NVIDIA RTX 5080 Laptop |
| VRAM | 16,303 MiB (15.7 GB útiles) |
| RAM | 30 GB DDR5 |
| OS | CachyOS (Arch) |
| Driver | 595.71.05, CUDA 13.2 |
| Engine | Ollama 0.23.2 |
| Fecha | 2026-05-14 |
Siguiente: El precipicio VRAM — por qué 140 tok/s se convierte en 7 →