Notebookcheck Logo

Descoberta uma maneira de executar o modelo de IA 671B do DeepSeek sem GPUs caras

Fonte da imagem: Aristal, Pixabay
Fonte da imagem: Aristal, Pixabay
O engenheiro da Hugging Face, Matthew Carrigan, revelou recentemente no X um método para executar localmente o modelo R1 avançado do DeepSeek com quantização de 8 bits, eliminando a necessidade de GPUs caras, por um custo relatado de US$ 6.000. O segredo? Ter muita memória em vez de grandes reservas de potência de computação.

Lançado em 20 de janeiro de 2025, o DeepSeek-R1 é um modelo Mixture-of-Experts (MoE) de 671 bilhões de parâmetros com 37 bilhões de parâmetros ativos por token. Projetado para raciocínio avançado, ele suporta 128 mil entradas de tokens e gera até 32 mil tokens. Graças à sua arquitetura MoE, ele oferece desempenho de alto nível e usa menos recursos do que os modelos densos tradicionais.

Testes independentes em https://docsbot.ai/models/compare/o1-preview/deepseek-r1#benchmarks sugerem que o modelo de linguagem R1 atinge um desempenho comparável ao O1 da OpenAI, posicionando-o como uma alternativa competitiva em aplicativos de IA de alto risco. Vamos descobrir o que precisamos para executá-lo localmente.

O hardware

Essa construção está centrada em CPUs AMD Epyc duplas e 768 GB de RAM DDR5 - não são necessárias GPUs caras.

Software e configuração

Depois de montado, Linux e llama.cpp precisam ser instalados para executar o modelo. Um ajuste crucial do BIOS, definindo os grupos NUMA como 0, dobra a eficiência da RAM para um melhor desempenho. Os 700 GB completos de pesos do DeepSeek-R1 podem ser baixados https://huggingface.co/unsloth/DeepSeek-R1-GGUF/tree/mainda Hugging Face.

Desempenho

Essa configuração gera de 6 a 8 tokens por segundo - nada mal para um modelo de IA de ponta totalmente local. Ele ignora totalmente a GPU, mas isso é intencional. A execução da quantização Q8 (para alta qualidade) em GPUs exigiria mais de 700 GB de VRAM, custando mais de US$ 100 mil. Apesar de sua potência bruta, o sistema inteiro consome menos de 400 W, o que o torna surpreendentemente eficiente.

Para aqueles que desejam ter controle total sobre a IA de ponta, sem nuvem, sem restrições, esse é um divisor de águas. Ele prova que a IA de ponta pode ser executada localmente, de forma totalmente aberta, priorizando a privacidade dos dados, minimizando as vulnerabilidades a violações e eliminando a dependência de sistemas externos.

Fonte(s)

Please share our article, every link counts!
Mail Logo
> Análises e revisões de portáteis e celulares > Arquivo de notícias 2025 02 > Descoberta uma maneira de executar o modelo de IA 671B do DeepSeek sem GPUs caras
Daniel Miron, 2025-02- 5 (Update: 2025-02- 5)