ollama-lm-studio
GGUF Q4 vs Q5: qual quantizacao escolher?
Entenda a diferenca pratica entre Q4 e Q5 em modelos locais e teste no Ollama sem baixar coisa errada.
Kaua Miguel/2026-05-05/1 min read
Q4 e o ponto de partida
Q4 costuma ser o melhor equilibrio para quem quer rodar modelos locais em hardware comum. Ele reduz bastante o tamanho do modelo e geralmente mantém qualidade aceitavel para chat, resumo e automacao simples.
Q5 usa mais memoria e pode entregar respostas um pouco melhores, mas so vale se seu hardware tiver folga.
Como comparar na pratica
Escolha duas variantes do mesmo modelo e rode prompts iguais:
ollama run llama3.2:3b "Explique quantizacao em 5 bullets."
ollama run llama3.2:3b "Escreva uma funcao JS que valida email."
Meça:
- tempo ate o primeiro token;
- uso de VRAM/RAM;
- qualidade da resposta;
- estabilidade em prompts longos.
Minha recomendacao
Se voce esta no limite de memoria, escolha Q4. Se Q4 roda com folga e voce quer melhorar qualidade, teste Q5. Nao escolha Q5 so porque parece "melhor"; escolha porque seu hardware aguenta sem sacrificar velocidade demais.