low-end-pc

Da para rodar IA local sem placa de video?

Entenda quando CPU-only funciona, quais modelos usar e quando uma GPU passa a valer a pena.

Kaua Miguel/2026-05-04/2 min read

CPU-only funciona, mas com limites

Rodar IA local sem GPU dedicada e possivel. O ponto importante e ajustar expectativa: respostas podem ser lentas, modelos grandes podem nao caber na memoria e tarefas interativas ficam menos confortaveis.

O melhor uso para CPU-only e aprendizado, automacoes simples, resumos pequenos e testes de prompt. Para chat longo, agentes de codigo ou modelos acima de 7B, uma GPU dedicada costuma fazer muita diferenca.

Como escolher o modelo

Priorize modelos pequenos em GGUF ou variantes quantizadas. Um modelo de 1B a 3B parametros normalmente entrega uma experiencia mais honesta em CPU do que um 7B rodando no limite. Se o sistema comeca a usar swap, a velocidade cai de forma drastica.

No Ollama, teste primeiro um modelo leve e observe tempo ate o primeiro token, uso de RAM e temperatura. Depois suba aos poucos para modelos maiores.

Ajustes praticos

Reduza o contexto, feche programas em segundo plano e evite combinar varias tarefas pesadas. Se voce usa notebook, ligue na tomada. Em desktops antigos, memoria em dual-channel pode ajudar a CPU a alimentar o modelo com menos gargalo.

Teste CPU-only no terminal

Comece forçando um modelo pequeno e observe se a resposta e aceitavel:

ollama pull tinyllama
ollama run tinyllama "Explique em portugues o que e um modelo local."

Se quiser expor uma API local para outro app usar, suba o servidor:

ollama serve

Em outro terminal, teste a API:

curl http://localhost:11434/api/generate -d "{\"model\":\"tinyllama\",\"prompt\":\"Diga ola em uma frase\",\"stream\":false}"

Quando comprar GPU

Se voce quer respostas rapidas, usar modelos de codigo ou trabalhar com 7B e 13B com frequencia, a GPU vira prioridade. Uma placa com 12GB de VRAM, como a RTX 3060 12GB, ainda e uma das opcoes mais interessantes para IA local de entrada.