low-end-pc
Melhores LLMs locais para 8GB de RAM em 2026
Modelos leves, estratégias de quantização e expectativas realistas para rodar IA local em PCs com 8GB de RAM.
O que esperar de um PC com 8GB
Um PC com 8GB de RAM ainda consegue rodar modelos locais, mas a escolha precisa ser realista. A melhor experiencia costuma vir de modelos pequenos, quantizados em Q4, com contexto moderado e poucas aplicacoes abertas ao mesmo tempo.
Para chat geral, modelos entre 1B e 3B parametros tendem a ser a zona mais confortavel. Para codigo, um modelo pequeno especializado pode responder melhor que um modelo generico maior que fica trocando memoria com o disco.
Modelos que fazem sentido
Comece por modelos leves como TinyLlama, Qwen 2.5 1.5B, Gemma 2 2B e Phi-3 Mini em quantizacao Q4. Eles nao substituem modelos grandes em raciocinio complexo, mas entregam respostas uteis para resumo, brainstorming, comandos simples e explicacoes curtas.
Se voce usa Ollama, prefira baixar uma variante pequena primeiro e medir a velocidade antes de tentar modelos de 7B. Quando a memoria esta no limite, o gargalo deixa de ser qualidade do modelo e passa a ser espera.
Configuracao recomendada
Feche navegador pesado, IDEs e launchers antes de rodar o modelo. Use contexto menor, como 2048 ou 4096 tokens, e evite carregar modelos multimodais. Em notebooks antigos, manter o equipamento conectado na tomada tambem evita reducao agressiva de clock.
O CanIRunAI ajuda nessa triagem porque compara VRAM, RAM e CPU contra modelos conhecidos. O resultado nao e uma promessa exata de tokens por segundo, mas e um bom filtro para nao baixar modelos que provavelmente serao impraticaveis.
Tutorial rapido com Ollama
Instale o Ollama pelo site oficial e comece com um modelo pequeno. A ideia e validar velocidade antes de baixar algo maior:
ollama pull qwen2.5:1.5b
ollama run qwen2.5:1.5b
Depois teste um prompt curto:
ollama run qwen2.5:1.5b "Resuma em 5 bullets o que e quantizacao Q4."
Se funcionar bem, tente um modelo um pouco maior. Se travar, volte para modelos menores e reduza apps em segundo plano.
Quando vale fazer upgrade
Se voce pretende usar IA local todos os dias, 16GB de RAM e uma GPU com pelo menos 8GB de VRAM mudam bastante a experiencia. Ainda assim, um PC de 8GB pode ser suficiente para aprender o fluxo de Ollama, testar prompts e entender quais tarefas realmente precisam de hardware melhor.