CanIRunAICanIRunAI
Voltar ao blog

can-i-run-model

Quanta VRAM precisa para rodar Llama 3 localmente?

Um guia pratico para estimar memoria de GPU, RAM e quantizacao antes de baixar modelos Llama para uso local.

Kaua Miguel/2026-05-06/2 min read

O numero que mais importa

Para rodar um modelo Llama localmente, a primeira pergunta nao e apenas qual GPU voce tem. A pergunta correta e quanta memoria livre existe para carregar pesos, contexto e overhead do runtime.

Em uso domestico, a maioria das pessoas roda variantes quantizadas. Um modelo de 8B em Q4 costuma ser muito mais acessivel que o mesmo modelo em precisao alta. Ainda assim, abrir navegador, IDE e apps de comunicacao pode reduzir a memoria real disponivel.

VRAM, RAM e offload

Quando o modelo cabe inteiro na VRAM, a experiencia tende a ser mais fluida. Quando uma parte precisa ir para RAM do sistema, o runtime ainda pode funcionar, mas a velocidade cai. Se tambem faltar RAM, o sistema passa a depender de swap em disco e a experiencia fica ruim.

Por isso, uma GPU de 8GB pode ser suficiente para muitos modelos pequenos, enquanto 12GB da mais folga para modelos 7B ou 8B quantizados. Para modelos maiores, 16GB, 24GB ou mais passam a fazer sentido.

Como testar sem desperdiçar tempo

Baixe primeiro uma variante Q4 pequena. Abra o monitor de recursos, rode um prompt curto e veja se a GPU realmente esta sendo usada. Se o primeiro token demora demais ou a RAM fica no limite, reduza contexto antes de trocar de modelo.

O ideal e tratar requisitos como faixa, nao como numero magico. Driver, runtime, sistema operacional, quantizacao e contexto mudam o resultado.

Onde o CanIRunAI entra

O CanIRunAI usa a memoria da GPU, RAM e CPU para classificar modelos em tiers de compatibilidade. A ferramenta ajuda a evitar downloads grandes que provavelmente nao vao rodar bem no seu hardware.

Leia tambem