Descoberta uma maneira de executar o modelo de IA 671B do DeepSeek sem GPUs caras

Fonte da imagem: Aristal, Pixabay

O engenheiro da Hugging Face, Matthew Carrigan, revelou recentemente no X um método para executar localmente o modelo R1 avançado do DeepSeek com quantização de 8 bits, eliminando a necessidade de GPUs caras, por um custo relatado de US$ 6.000. O segredo? Ter muita memória em vez de grandes reservas de potência de computação.

Daniel Miron (traduzido por Ninh Duy), Publicado 02/05/2025 🇺🇸 🇫🇷 ...

AI Software

Lançado em 20 de janeiro de 2025, o DeepSeek-R1 é um modelo Mixture-of-Experts (MoE) de 671 bilhões de parâmetros com 37 bilhões de parâmetros ativos por token. Projetado para raciocínio avançado, ele suporta 128 mil entradas de tokens e gera até 32 mil tokens. Graças à sua arquitetura MoE, ele oferece desempenho de alto nível e usa menos recursos do que os modelos densos tradicionais.

Testes independentes em https://docsbot.ai/models/compare/o1-preview/deepseek-r1#benchmarks sugerem que o modelo de linguagem R1 atinge um desempenho comparável ao O1 da OpenAI, posicionando-o como uma alternativa competitiva em aplicativos de IA de alto risco. Vamos descobrir o que precisamos para executá-lo localmente.

O hardware

Essa construção está centrada em CPUs AMD Epyc duplas e 768 GB de RAM DDR5 - não são necessárias GPUs caras.

Gabinete: Enthoo Pro 2 Server
Placa-mãe: Gigabyte MZ73-LM0 ou MZ73-LM1 (tem dois soquetes de CPU e 24 slots de RAM)
CPU: 2x AMD Epyc 9004/9005 (9115 ou 9015 funcionam como opções mais econômicas)
Resfriamento: Arctic Freezer 4U-SP5
RAM: 24x 32GB DDR5 RDIMM (total de 768 GB)
Armazenamento: 1TB+ NVMe SSD (para carregar rapidamente 700 GB de pesos de modelos)
Fonte de alimentação: Corsair HX1000i (1000W, suficiente para CPUs duplas)

Software e configuração

Depois de montado, Linux e llama.cpp precisam ser instalados para executar o modelo. Um ajuste crucial do BIOS, definindo os grupos NUMA como 0, dobra a eficiência da RAM para um melhor desempenho. Os 700 GB completos de pesos do DeepSeek-R1 podem ser baixados https://huggingface.co/unsloth/DeepSeek-R1-GGUF/tree/mainda Hugging Face.

Desempenho

Essa configuração gera de 6 a 8 tokens por segundo - nada mal para um modelo de IA de ponta totalmente local. Ele ignora totalmente a GPU, mas isso é intencional. A execução da quantização Q8 (para alta qualidade) em GPUs exigiria mais de 700 GB de VRAM, custando mais de US$ 100 mil. Apesar de sua potência bruta, o sistema inteiro consome menos de 400 W, o que o torna surpreendentemente eficiente.

Para aqueles que desejam ter controle total sobre a IA de ponta, sem nuvem, sem restrições, esse é um divisor de águas. Ele prova que a IA de ponta pode ser executada localmente, de forma totalmente aberta, priorizando a privacidade dos dados, minimizando as vulnerabilidades a violações e eliminando a dependência de sistemas externos.