CanIRunAICanIRunAI
Voltar ao blog

ollama-lm-studio

Ollama nao esta usando GPU: checklist rapido

Passos praticos para descobrir por que o Ollama caiu para CPU e como isolar problemas de driver, Docker e permissao.

Kaua Miguel/2026-05-06/2 min read

Confirme se o problema e GPU mesmo

Quando o Ollama fica lento, nem sempre ele esta ignorando a GPU. O modelo pode estar grande demais, o contexto pode estar alto ou a VRAM pode estar cheia. Primeiro confirme uso de GPU com o gerenciador de tarefas, nvidia-smi ou a ferramenta equivalente no seu sistema.

Se voce usa Docker, a documentacao oficial do Ollama recomenda testar se o runtime enxerga a GPU antes de culpar o Ollama. Em NVIDIA, um teste comum e rodar um container simples com GPU e verificar nvidia-smi.

Drivers e reinicio ainda importam

Drivers desatualizados, suspensao do sistema e servicos presos podem fazer o Ollama cair para CPU. No Linux, tambem entram permissoes de grupos como video e render em setups AMD.

No Windows, confirme se voce esta usando a instalacao nativa correta, se o driver NVIDIA/AMD esta atualizado e se nao ha outro processo segurando a VRAM.

Reduza o caso de teste

Teste com um modelo pequeno antes de diagnosticar com um modelo pesado. Se um modelo leve usa GPU e um grande cai para CPU, o problema provavelmente e memoria, nao descoberta de hardware.

Depois aumente tamanho e contexto aos poucos. Esse metodo evita misturar tres problemas ao mesmo tempo.

Comandos para diagnosticar

Em NVIDIA, acompanhe a GPU enquanto roda um prompt:

nvidia-smi
ollama run llama3.2:3b "Escreva um paragrafo curto sobre IA local."

No Linux com AMD, confira se o usuario esta nos grupos certos:

groups
ls -l /dev/dri

Se estiver usando Docker com NVIDIA, teste primeiro se o container enxerga a GPU:

docker run --rm --gpus all nvidia/cuda:12.4.1-base-ubuntu22.04 nvidia-smi

Fontes oficiais

Veja tambem a documentacao oficial de GPU no Ollama e troubleshooting do Ollama.

Leia tambem