ollama-lm-studio
Ollama nao esta usando GPU: checklist rapido
Passos praticos para descobrir por que o Ollama caiu para CPU e como isolar problemas de driver, Docker e permissao.
Confirme se o problema e GPU mesmo
Quando o Ollama fica lento, nem sempre ele esta ignorando a GPU. O modelo pode estar grande demais, o contexto pode estar alto ou a VRAM pode estar cheia. Primeiro confirme uso de GPU com o gerenciador de tarefas, nvidia-smi ou a ferramenta equivalente no seu sistema.
Se voce usa Docker, a documentacao oficial do Ollama recomenda testar se o runtime enxerga a GPU antes de culpar o Ollama. Em NVIDIA, um teste comum e rodar um container simples com GPU e verificar nvidia-smi.
Drivers e reinicio ainda importam
Drivers desatualizados, suspensao do sistema e servicos presos podem fazer o Ollama cair para CPU. No Linux, tambem entram permissoes de grupos como video e render em setups AMD.
No Windows, confirme se voce esta usando a instalacao nativa correta, se o driver NVIDIA/AMD esta atualizado e se nao ha outro processo segurando a VRAM.
Reduza o caso de teste
Teste com um modelo pequeno antes de diagnosticar com um modelo pesado. Se um modelo leve usa GPU e um grande cai para CPU, o problema provavelmente e memoria, nao descoberta de hardware.
Depois aumente tamanho e contexto aos poucos. Esse metodo evita misturar tres problemas ao mesmo tempo.
Comandos para diagnosticar
Em NVIDIA, acompanhe a GPU enquanto roda um prompt:
nvidia-smi
ollama run llama3.2:3b "Escreva um paragrafo curto sobre IA local."
No Linux com AMD, confira se o usuario esta nos grupos certos:
groups
ls -l /dev/dri
Se estiver usando Docker com NVIDIA, teste primeiro se o container enxerga a GPU:
docker run --rm --gpus all nvidia/cuda:12.4.1-base-ubuntu22.04 nvidia-smi
Fontes oficiais
Veja tambem a documentacao oficial de GPU no Ollama e troubleshooting do Ollama.