IA
3 min
El precipicio VRAM: por qué tu modelo va a 7 tok/s en vez de 140
Cuando un modelo no cabe en VRAM, la velocidad cae 20x. No es gradual, es un cliff. Medí la degradación por contexto (4K …
15 may 2026
Cuando un modelo no cabe en VRAM, la velocidad cae 20x. No es gradual, es un cliff. Medí la degradación por contexto (4K …