Pablo IB

Ollama

search

IA 3 min

El precipicio VRAM: por qué tu modelo va a 7 tok/s en vez de 140

Cuando un modelo no cabe en VRAM, la velocidad cae 20x. No es gradual, es un cliff. Medí la degradación por contexto (4K …

15 may 2026

IA 3 min

Mixture of Experts: cómo 30.000 millones de parámetros solo usan 3.000 millones por token

MoE (Mixture of Experts) es la arquitectura que permite correr modelos enormes en hardware modesto. Explicado desde …

15 may 2026

IA 3 min

RTX 50xx e IA local: qué modelo instalar según tu GPU (con velocidades reales)

Tabla de decisión por GPU: RTX 5060 (8GB), 5070 (12GB), 5080 (16GB), 5090 (32GB). Qué modelo Ollama instalar, cuánta …

15 may 2026