CanIRunAICanIRunAI
Voltar ao blog

ollama-lm-studio

GGUF Q4 vs Q5: qual quantizacao escolher?

Entenda a diferenca pratica entre Q4 e Q5 em modelos locais e teste no Ollama sem baixar coisa errada.

Kaua Miguel/2026-05-05/1 min read

Q4 e o ponto de partida

Q4 costuma ser o melhor equilibrio para quem quer rodar modelos locais em hardware comum. Ele reduz bastante o tamanho do modelo e geralmente mantém qualidade aceitavel para chat, resumo e automacao simples.

Q5 usa mais memoria e pode entregar respostas um pouco melhores, mas so vale se seu hardware tiver folga.

Como comparar na pratica

Escolha duas variantes do mesmo modelo e rode prompts iguais:

ollama run llama3.2:3b "Explique quantizacao em 5 bullets."
ollama run llama3.2:3b "Escreva uma funcao JS que valida email."

Meça:

  • tempo ate o primeiro token;
  • uso de VRAM/RAM;
  • qualidade da resposta;
  • estabilidade em prompts longos.

Minha recomendacao

Se voce esta no limite de memoria, escolha Q4. Se Q4 roda com folga e voce quer melhorar qualidade, teste Q5. Nao escolha Q5 so porque parece "melhor"; escolha porque seu hardware aguenta sem sacrificar velocidade demais.

Leia tambem