low-end-pc
Da para rodar IA local sem placa de video?
Entenda quando CPU-only funciona, quais modelos usar e quando uma GPU passa a valer a pena.
CPU-only funciona, mas com limites
Rodar IA local sem GPU dedicada e possivel. O ponto importante e ajustar expectativa: respostas podem ser lentas, modelos grandes podem nao caber na memoria e tarefas interativas ficam menos confortaveis.
O melhor uso para CPU-only e aprendizado, automacoes simples, resumos pequenos e testes de prompt. Para chat longo, agentes de codigo ou modelos acima de 7B, uma GPU dedicada costuma fazer muita diferenca.
Como escolher o modelo
Priorize modelos pequenos em GGUF ou variantes quantizadas. Um modelo de 1B a 3B parametros normalmente entrega uma experiencia mais honesta em CPU do que um 7B rodando no limite. Se o sistema comeca a usar swap, a velocidade cai de forma drastica.
No Ollama, teste primeiro um modelo leve e observe tempo ate o primeiro token, uso de RAM e temperatura. Depois suba aos poucos para modelos maiores.
Ajustes praticos
Reduza o contexto, feche programas em segundo plano e evite combinar varias tarefas pesadas. Se voce usa notebook, ligue na tomada. Em desktops antigos, memoria em dual-channel pode ajudar a CPU a alimentar o modelo com menos gargalo.
Teste CPU-only no terminal
Comece forçando um modelo pequeno e observe se a resposta e aceitavel:
ollama pull tinyllama
ollama run tinyllama "Explique em portugues o que e um modelo local."
Se quiser expor uma API local para outro app usar, suba o servidor:
ollama serve
Em outro terminal, teste a API:
curl http://localhost:11434/api/generate -d "{\"model\":\"tinyllama\",\"prompt\":\"Diga ola em uma frase\",\"stream\":false}"
Quando comprar GPU
Se voce quer respostas rapidas, usar modelos de codigo ou trabalhar com 7B e 13B com frequencia, a GPU vira prioridade. Uma placa com 12GB de VRAM, como a RTX 3060 12GB, ainda e uma das opcoes mais interessantes para IA local de entrada.