search
IA3 min lectura

RTX 50xx e IA local: qué modelo instalar según tu GPU (con velocidades reales)

Pablo IB

TL;DR: Tienes una RTX 50xx, quieres IA local, y no sabes qué modelo instalar. Aquí está la respuesta directa: tu GPU → tu modelo → tu comando.


Un comando para empezar

# Instalar Ollama (Arch / CachyOS)
sudo pacman -S ollama-cuda
sudo systemctl enable --now ollama

# Tu primer modelo
ollama pull gemma4:e4b
ollama run gemma4:e4b "Hola, ¿me lees?"

Si responde, ya tienes IA local. Sin Docker, sin Python, sin configuración.


La tabla

RTX 5060 — 8 GB VRAM

ollama pull gemma4:e4b
ModeloVRAMTok/sQué puedes hacer
gemma4:e4b~10 GB ✅140Chat, código rápido, vision, audio

Solo te cabe uno. Pero a 140 tok/s es más rápido de lo que puedes leer. Es 4.5B parámetros y compite con modelos de 14B en benchmarks. No lo subestimes.

RTX 5070 / 5070 Ti — 12 GB VRAM

ollama pull gemma4:e4b
ollama pull qwen3:14b
ModeloVRAMTok/sQué puedes hacer
gemma4:e4b~10 GB ✅140Chat, vision, audio
qwen3:14b~9 GB ✅~50Coding, razonamiento, thinking mode

Los dos pueden convivir. Ollama solo carga uno en VRAM a la vez. El qwen3:14b es tu modelo de “trabajo serio” — tiene thinking mode y tool calling.

RTX 5080 — 16 GB VRAM

ollama pull gemma4:e4b
ollama pull qwen3:14b
ollama pull hf.co/unsloth/Qwen3-Coder-30B-A3B-Instruct-GGUF:UD-Q4_K_XL
ModeloVRAMTok/sQué puedes hacer
gemma4:e4b~10 GB ✅140Daily driver
qwen3:14b~9 GB ✅~50General + thinking
qwen3-coder-30b~14.5 GB ⚠️7.2Coding SOTA, agentic

⚠️ El coder-30b necesita offload parcial (14.5 GB GPU + 3.8 GB RAM). Va a 7 tok/s — lento pero usable para coding serio.

Mi configuración diaria: e4b para todo, coder-30b cuando necesito refactorizar código.

RTX 5090 — 32 GB VRAM

ollama pull gemma4:e4b
ollama pull qwen3:14b
ollama pull qwen3.6:35b
ModeloVRAMTok/sQué puedes hacer
gemma4:e4b~10 GB ✅140Daily driver
qwen3:14b~9 GB ✅~50General
Qwen3.6-35B-A3B~22 GB ✅30-80*Todo + contexto largo

*Benchmarks de Reddit en RTX 5090: 79 tok/s contexto fresco, 30 tok/s a 128K.

Con 32GB puedes correr modelos grandes enteramente en VRAM. Sin offload. Sin penalización.


Disco necesario

GPUModelosDisco total
5060gemma4:e4b~10 GB
5070e4b + qwen3:14b~19 GB
5080e4b + qwen3:14b + coder-30b~36 GB
5090e4b + qwen3:14b + qwen3.6:35b~40 GB

Los modelos comparten blobs internos, así que el disco real es menor a la suma de archivos.


Regla de oro

Un modelo grande a la vez. e4b + qwen3:14b pueden convivir en VRAM. Pero si cargas el coder-30b, no queda espacio para nada más. Ollama descarga modelos de VRAM automáticamente cuando cambias, pero no sirves dos modelos grandes en paralelo.


Hardware de referencia

Todos los datos medidos en:

ComponenteValor
GPUNVIDIA RTX 5080 Laptop
VRAM16,303 MiB (15.7 GB útiles)
RAM30 GB DDR5
OSCachyOS (Arch)
Driver595.71.05, CUDA 13.2
EngineOllama 0.23.2
Fecha2026-05-14

Siguiente: El precipicio VRAM — por qué 140 tok/s se convierte en 7