Notebookcheck Logo

Nvidia GeForce A RTX 5090 se afasta da tradição dos carros-chefe RTX 3090 Ti e RTX 4090 e abandona a VRAM ECC para cargas de trabalho profissionais

Não é mais possível alternar os estados de ECC na GPU RTX 5090 Blackwell
Não é mais possível alternar os estados de ECC na GPU RTX 5090 Blackwell
Curiosamente, a Nvidia removeu a opção de alternar o estado ECC da VRAM por meio do driver na RTX 5090. Placas como a RTX 3090 Ti e a RTX 4090 permitem ativar o estado ECC por meio do driver para melhorar a confiabilidade da memória para cargas de trabalho profissionais, embora essas placas usem um "ECC suave" em vez de um chip de memória ECC dedicado no disco.

Desde a geração do Ampere, a Nvidia substituiu seu carro-chefe Titan com as ofertas da série 90 voltadas para profissionais que também jogam.

A Nvidia GeForce RTX 5090traz consigo melhorias substanciais de hardware em relação à GPU GB202 da RTX 4090e a RTX 3090 Tie a GPU GA102 da RTX 3090 Ti.

Embora tanto a RTX 3090 Ti quanto a RTX 4090 ofereçam a opção de alternar o estado ECC da VRAM no driver, essa opção está curiosamente ausente na RTX 5090.

O que é exatamente a memória ECC?

ECC, que significa código de correção de erros, é uma técnica que permite que a memória se autocorrija. Os erros de memória ocorrem quando há inversão de bits durante a transmissão de dados ou quando os erros se infiltram nos dados à medida que as células de memória descarregam e reabastecem sua carga.

A autocorreção é realizada por um nono chip de memória dedicado que verifica a paridade entre os outros oito chips no módulo de RAM (conhecido como ECC on-die) ou no nível do controlador de memória (ECC DRAM).

A memória do sistema DDR5 do consumidor suporta ECC, mas não em sua totalidade. Por padrão, a RAM DDR5 pode detectar erros de vários bits, mas só pode corrigir erros de um único bit por meio da verificação de dados integrada.

Devido à maneira fundamental pela qual a DDR5 divide a memória de 64 bits em dois subcanais de 32 bits, a RAM DDR5-ECC é fornecida em módulos EC4 de 72 bits (32+4) ou EC8 de 80 bits (32+8).

A memória ECC raramente é necessária para a maioria dos casos de uso do consumidor. Se não tiver certeza sobre esse termo, é provável que o senhor não precise de memória ECC.

No entanto, a memória ECC é fundamental em aplicativos de missão crítica e de aprendizado de máquina em que a integridade dos dados deve ser mantida ao longo de toda a cadeia.

O Google percebeu isso da maneira mais difícil em 1999, quando a falta de uso da memória ECC afetou drasticamente o desempenho de seu mecanismo de pesquisa devido à corrupção da memória.

O EDR no GDDR6X reduz a probabilidade de falhas durante o overclocking da VRAM. (Fonte da imagem: Nvidia)
O EDR no GDDR6X reduz a probabilidade de falhas durante o overclocking da VRAM. (Fonte da imagem: Nvidia)

Todas as GPUs com GDDR5 e GDDR6/6X VRAM têm uma maneira de detectar erros de memória chamada EDC (Error Detection Code).

As GPUs da Nvidia se referem a essa função como EDR (Error Detection and Replay), que é uma forma de solicitar a retransmissão de bits do controlador de memória após a realização de uma verificação de redundância cíclica (CRC).

O EDR ajuda a minimizar os artefatos de pixel quando a VRAM está com overclock, embora possa afetar um pouco o desempenho.

ECC VRAM na RTX 4090 e na RTX 5090

Embora não seja amplamente discutido, um recurso distintivo encontrado na Nvidia GeForce RTX 3090 Ti e no RTX 4090 para desktop é a capacidade de alternar entre os estados de memória ECC e não ECC por meio do driver.

No entanto, esse recurso não está presente na nova RTX 5090.

Alternância de estado de ECC na RTX 4090
Alternância de estado de ECC na RTX 4090
Não há opção para alternar o estado do ECC com a RTX 5090
Não há opção para alternar o estado do ECC com a RTX 5090

Impacto no desempenho da ativação do ECC

O RTX 3090 Ti e o RTX 4090 implementam algo chamado "soft ECC". Essa abordagem não envolve um chip separado para manter a paridade; em vez disso, a ativação desse recurso aloca uma parte da VRAM para funcionar de forma semelhante a um módulo ECC on-die.

Como resultado, a VRAM total disponível e a velocidade da memória são reduzidas. No caso da RTX 4090, a VRAM utilizável é reduzida de 24 GB para 22,5 GB, sendo que 1,5 GB é reservado para funções de ECC.

1.5 GB de VRAM são alocados para ECC
1.5 GB de VRAM são alocados para ECC
Isso também se reflete no Gerenciador de Tarefas
Isso também se reflete no Gerenciador de Tarefas

A alternância do estado do ECC afeta o desempenho, conforme mostrado abaixo. Com o ECC ativado na RTX 4090, as pontuações do 3DMark Speed Way diminuem em 6,4%, enquanto oCyberpunk 2077 2.21 Phantom Liberty apresenta uma redução de aproximadamente 5% na média de fps.

O grau de impacto no desempenho varia de acordo com a carga de trabalho.

3DMark Speed Way na RTX 4090
3DMark Speed Way na RTX 4090
A pontuação cai quando o ECC está ativado
A pontuação cai quando o ECC está ativado
Cyberpunk 2077 2.21 4K RT Ultra (sem DLSS/FG) na RTX 4090
Cyberpunk 2077 2.21 4K RT Ultra (sem DLSS/FG) na RTX 4090
Pequena queda no desempenho com o ECC ativado
Pequena queda no desempenho com o ECC ativado

A VRAM GDDR7 da RTX 5090 foi oficialmente especificada para ECC no disco

Com a GDDR7, a JEDEC incorporou o ECC on-die como parte da especificação da VRAM, levando em conta a crescente probabilidade de erros devido às maiores densidades de memória. A GDDR7 usa ECC on-die com um protocolo de transparência que informa o controlador de memória sobre o tipo de erros encontrados.

De acordo com o JEDEC, a GDDR7 é capaz de corrigir 100% dos erros de 1 bit e detectar 100% dos erros de 2 bits, embora a taxa de detecção caia um pouco para 99,3% no caso de erros raros de 3 bits.

Além disso, a especificação oficial também inclui paridade de endereço de comando com bloqueio de comando (CAPARBLK) para melhorar ainda mais a confiabilidade do barramento de endereço de comando.

Visão geral do ECC on-die na VRAM GDDR7. (Reproduzido do documento JEDEC JESD239A)
Visão geral do ECC on-die na VRAM GDDR7. (Reproduzido do documento JEDEC JESD239A)

No entanto, não está claro se o controlador de memória da Blackwell usa esse recurso de ECC on-die por padrão.

A memória GDDR7 de 512 bits do RTX 5090 é classificada para uma largura de banda de 1,792 TB/s em um clock rápido de 28 Gbps, o que pode potencialmente causar erros de transmissão. Além disso, a Nvidia está lançando o RTX 5090 para fluxos de trabalho de IA, que podem se beneficiar do ECC durante o treinamento de grandes conjuntos de dados.

Apesar disso, o whitepaper da arquitetura da Nvidia da Nvidia menciona apenas o suporte para "Enhanced Cyclic Redundancy Check (CRC) for Reliability, Availability, and Serviceability (RAS)", que não é o mesmo que ECC.

Embora seja seguro esperar que a Nvidia habilite a funcionalidade ECC on-die do GDDR7 para as GPUs de estação de trabalho Blackwell https://www.tomshardware.com/pc-components/gpus/nvidias-rtx-blackwell-workstation-gpu-spotted-with-96gb-gddr7-proviz-gpu-with-a-512-bit-busainda não se sabe se a alternância do estado ECC chegará ao consumidor da RTX 5090 por meio de um driver futuro ou atualização do VBIOS.

Fonte(s)

Próprio

Please share our article, every link counts!
Mail Logo
> Análises e revisões de portáteis e celulares > Arquivo de notícias 2025 02 > Nvidia GeForce A RTX 5090 se afasta da tradição dos carros-chefe RTX 3090 Ti e RTX 4090 e abandona a VRAM ECC para cargas de trabalho profissionais
Vaidyanathan Subramaniam, 2025-02-13 (Update: 2025-02-14)