Descoberta uma maneira de executar o modelo de IA 671B do DeepSeek sem GPUs caras
Lançado em 20 de janeiro de 2025, o DeepSeek-R1 é um modelo Mixture-of-Experts (MoE) de 671 bilhões de parâmetros com 37 bilhões de parâmetros ativos por token. Projetado para raciocínio avançado, ele suporta 128 mil entradas de tokens e gera até 32 mil tokens. Graças à sua arquitetura MoE, ele oferece desempenho de alto nível e usa menos recursos do que os modelos densos tradicionais.
Testes independentes em https://docsbot.ai/models/compare/o1-preview/deepseek-r1#benchmarks sugerem que o modelo de linguagem R1 atinge um desempenho comparável ao O1 da OpenAI, posicionando-o como uma alternativa competitiva em aplicativos de IA de alto risco. Vamos descobrir o que precisamos para executá-lo localmente.
O hardware
Essa construção está centrada em CPUs AMD Epyc duplas e 768 GB de RAM DDR5 - não são necessárias GPUs caras.
- Gabinete: Enthoo Pro 2 Server
- Placa-mãe: Gigabyte MZ73-LM0 ou MZ73-LM1 (tem dois soquetes de CPU e 24 slots de RAM)
- CPU: 2x AMD Epyc 9004/9005 (9115 ou 9015 funcionam como opções mais econômicas)
- Resfriamento: Arctic Freezer 4U-SP5
- RAM: 24x 32GB DDR5 RDIMM (total de 768 GB)
- Armazenamento: 1TB+ NVMe SSD (para carregar rapidamente 700 GB de pesos de modelos)
- Fonte de alimentação: Corsair HX1000i (1000W, suficiente para CPUs duplas)
Software e configuração
Depois de montado, Linux e llama.cpp precisam ser instalados para executar o modelo. Um ajuste crucial do BIOS, definindo os grupos NUMA como 0, dobra a eficiência da RAM para um melhor desempenho. Os 700 GB completos de pesos do DeepSeek-R1 podem ser baixados https://huggingface.co/unsloth/DeepSeek-R1-GGUF/tree/mainda Hugging Face.
Desempenho
Essa configuração gera de 6 a 8 tokens por segundo - nada mal para um modelo de IA de ponta totalmente local. Ele ignora totalmente a GPU, mas isso é intencional. A execução da quantização Q8 (para alta qualidade) em GPUs exigiria mais de 700 GB de VRAM, custando mais de US$ 100 mil. Apesar de sua potência bruta, o sistema inteiro consome menos de 400 W, o que o torna surpreendentemente eficiente.
Para aqueles que desejam ter controle total sobre a IA de ponta, sem nuvem, sem restrições, esse é um divisor de águas. Ele prova que a IA de ponta pode ser executada localmente, de forma totalmente aberta, priorizando a privacidade dos dados, minimizando as vulnerabilidades a violações e eliminando a dependência de sistemas externos.
Fonte(s)
Matthew Carrigan em X, Docsbot, DeepSeek, imagem teaser: Pixabay
Os Top 10
» Os Top 10 Portáteis Multimídia
» Os Top 10 Portáteis de Jogos
» Os Top 10 Portáteis Leves para Jogos
» Os Top 10 Portáteis Acessíveis de Escritório/Empresariais
» Os Top 10 Portáteis Premium de Escritório/Empresariais
» Os Top 10 dos Portáteis Workstation
» Os Top 10 Subportáteis
» Os Top 10 Ultrabooks
» Os Top 10 Conversíveis
» Os Top 10 Tablets
» Os Top 10 Smartphones
» A melhores Telas de Portáteis Analisadas Pela Notebookcheck
» Top 10 dos portáteis abaixo dos 500 Euros da Notebookcheck
» Top 10 dos Portáteis abaixo dos 300 Euros