Como Calculamos

Entenda a metodologia por trás das recomendações do CanIRunAI

Visão Geral

O CanIRunAI analisa seu hardware (GPU, CPU e RAM) e calcula a compatibilidade com cada modelo de IA local. Todos os scores são baseados em medições reais com RTX 3060 como baseline.

Sistema de Tiers

Cada modelo recebe um tier baseado na velocidade estimada (tokens por segundo) no seu hardware.

Excelente≥ 30 tok/s

Respostas quase instantâneas. Experiência fluida para qualquer uso.

velocidade

Bom≥ 15 tok/s

Boa velocidade. Confortável para chat, coding e uso geral.

velocidade

Aceitável≥ 8 tok/s

Funcional mas perceptivelmente mais lento. OK para tarefas não-interativas.

velocidade

Lento≥ 3 tok/s

Utilizável com paciência. Respostas longas podem demorar minutos.

velocidade

Não roda< 3 tok/s

Não cabe na memória ou é lento demais para uso prático.

velocidade

Estimativa de VRAM

O modelo precisa caber na memória da GPU (VRAM). Usamos quantização Q4_K_M como padrão — o melhor equilíbrio entre qualidade e tamanho.

Quantização

Reduz a precisão dos pesos do modelo para diminuir o tamanho e acelerar a inferência.

Q2_K

60%~2.5 GB

Q4_K_M

88%~3.9 GBmelhor equilíbrio

Q6_K

95%~5.3 GB

Q8_0

99%~6.7 GB

F16

100%~13 GB

Como o modelo encaixa

●

Confortável≤85%

Modelo usa até 85% da VRAM. Performance total, sem penalidades.

penalidade

◐

Justo≤100%

Modelo cabe na VRAM mas sem folga. 30% de penalidade por pressão de memória.

30%

penalidade

◑

Offload parcialGPU+RAM

Parte na GPU, resto na RAM. 40-80% de penalidade dependendo da proporção.

40-80%

penalidade

○

CPU onlyRAM only

Sem GPU dedicada. Usa 60% da RAM. 88-94% de penalidade vs GPU.

88-94%

penalidade

Não cabe—

Memória insuficiente. Modelo não pode ser carregado.

100%

penalidade

Escala por Bandwidth

A velocidade escala linearmente com o bandwidth da GPU. O RTX 3060 (360 GB/s) é o baseline.

tok/s estimado = baseline × (seu bandwidth ÷ 360)

GTX 1650

128 GB/s0.36×

RTX 3060

360 GB/s1×

RTX 4070

504 GB/s1.4×

RTX 4090

1008 GB/s2.8×

M4 Max

546 GB/s1.52×

Fator RAM

A quantidade de RAM do sistema influencia a performance. 16GB é o baseline (fator 1.0).

Faixa: 0.65× (4GB) até 1.18× (32GB+)

0.65×

4GB

0.69×

8GB

1×

16GB

1.18×

32GB

1.18×

64GB

Fator CPU

A CPU afeta ~40% da performance em modo GPU (tokenização, KV cache, transferência). Em modo CPU-only, é 100% do impacto.

Score Final (0-100)

O score geral é uma média ponderada de quantos modelos rodam em cada tier.

Score = (S×1.0 + A×0.8 + B×0.4 + C×0.1 + D×0.0) ÷ total × 100

Exemplo de Cálculo

GPU: RTX 4070 (504 GB/s, 12GB)

RAM: 32GB

CPU: i7-13700K

Modelo: Llama 3.1 8B (7.5GB VRAM, 45 tok/s baseline)

1Escala bandwidth: 45 × (504÷360) = 63 tok/s

2Fator RAM (32GB): 1.18

3Encaixe: 7.5GB ≤ 10.2GB (85%) → confortável

4CPU i7-13: fator 1.0

63 × 1.18 × 1.0 = 74 tok/s → Tier S

Voltar

Como Calculamos

Entenda a metodologia por trás das recomendações do CanIRunAI

Visão Geral

O CanIRunAI analisa seu hardware (GPU, CPU e RAM) e calcula a compatibilidade com cada modelo de IA local. Todos os scores são baseados em medições reais com RTX 3060 como baseline.

Sistema de Tiers

Cada modelo recebe um tier baseado na velocidade estimada (tokens por segundo) no seu hardware.

Excelente≥ 30 tok/s

Respostas quase instantâneas. Experiência fluida para qualquer uso.

velocidade

Bom≥ 15 tok/s

Boa velocidade. Confortável para chat, coding e uso geral.

velocidade

Aceitável≥ 8 tok/s

Funcional mas perceptivelmente mais lento. OK para tarefas não-interativas.

velocidade

Lento≥ 3 tok/s

Utilizável com paciência. Respostas longas podem demorar minutos.

velocidade

Não roda< 3 tok/s

Não cabe na memória ou é lento demais para uso prático.

velocidade

Estimativa de VRAM

O modelo precisa caber na memória da GPU (VRAM). Usamos quantização Q4_K_M como padrão — o melhor equilíbrio entre qualidade e tamanho.

Quantização

Reduz a precisão dos pesos do modelo para diminuir o tamanho e acelerar a inferência.

Q2_K

60%~2.5 GB

Q4_K_M

88%~3.9 GBmelhor equilíbrio

Q6_K

95%~5.3 GB

Q8_0

99%~6.7 GB

F16

100%~13 GB

Como o modelo encaixa

●

Confortável≤85%

Modelo usa até 85% da VRAM. Performance total, sem penalidades.

penalidade

◐

Justo≤100%

Modelo cabe na VRAM mas sem folga. 30% de penalidade por pressão de memória.

30%

penalidade

◑

Offload parcialGPU+RAM

Parte na GPU, resto na RAM. 40-80% de penalidade dependendo da proporção.

40-80%

penalidade

○

CPU onlyRAM only

Sem GPU dedicada. Usa 60% da RAM. 88-94% de penalidade vs GPU.

88-94%

penalidade

Não cabe—

Memória insuficiente. Modelo não pode ser carregado.

100%

penalidade

Escala por Bandwidth

A velocidade escala linearmente com o bandwidth da GPU. O RTX 3060 (360 GB/s) é o baseline.

tok/s estimado = baseline × (seu bandwidth ÷ 360)

GTX 1650

128 GB/s0.36×

RTX 3060

360 GB/s1×

RTX 4070

504 GB/s1.4×

RTX 4090

1008 GB/s2.8×

M4 Max

546 GB/s1.52×

Fator RAM

A quantidade de RAM do sistema influencia a performance. 16GB é o baseline (fator 1.0).

Faixa: 0.65× (4GB) até 1.18× (32GB+)

0.65×

4GB

0.69×

8GB

1×

16GB

1.18×

32GB

1.18×

64GB

Fator CPU

A CPU afeta ~40% da performance em modo GPU (tokenização, KV cache, transferência). Em modo CPU-only, é 100% do impacto.

Score Final (0-100)

O score geral é uma média ponderada de quantos modelos rodam em cada tier.

Score = (S×1.0 + A×0.8 + B×0.4 + C×0.1 + D×0.0) ÷ total × 100

Exemplo de Cálculo

GPU: RTX 4070 (504 GB/s, 12GB)

RAM: 32GB

CPU: i7-13700K

Modelo: Llama 3.1 8B (7.5GB VRAM, 45 tok/s baseline)

1Escala bandwidth: 45 × (504÷360) = 63 tok/s

2Fator RAM (32GB): 1.18

3Encaixe: 7.5GB ≤ 10.2GB (85%) → confortável

4CPU i7-13: fator 1.0

63 × 1.18 × 1.0 = 74 tok/s → Tier S