IA
3 min
El precipicio VRAM: por qué tu modelo va a 7 tok/s en vez de 140
Cuando un modelo no cabe en VRAM, la velocidad cae 20x. No es gradual, es un cliff. Medí la degradación por contexto (4K …
15 may 2026
Cuando un modelo no cabe en VRAM, la velocidad cae 20x. No es gradual, es un cliff. Medí la degradación por contexto (4K …
MoE (Mixture of Experts) es la arquitectura que permite correr modelos enormes en hardware modesto. Explicado desde …
Tabla de decisión por GPU: RTX 5060 (8GB), 5070 (12GB), 5080 (16GB), 5090 (32GB). Qué modelo Ollama instalar, cuánta …