Notebookcheck Logo

Mergulho profundo na arquitetura AMD RDNA 4: Um design monolítico de 64 CPUs com melhorias abrangentes para computação, codificação e decodificação de mídia, traçado de raios e IA

O AMD RDNA 4 foi criado para atender a jogos de ponta, traçado de raio e cargas de trabalho de ML. (Fonte da imagem: AMD)
O AMD RDNA 4 foi criado para atender a jogos de ponta, traçado de raio e cargas de trabalho de ML. (Fonte da imagem: AMD)
A AMD falou sobre vários aspectos importantes do RDNA 4, que será lançado oficialmente hoje. Apresentado nas novas GPUs Radeon RX 9070 XT e RX 9070, o RDNA 4 permite experiências de jogos e criação de conteúdo de última geração com suporte para novos recursos de ray tracing e path tracing, upscaling baseado em ML com FSR 4 e novos recursos de codificação e decodificação de vídeo.

A AMD ofereceu uma espreitadela do RDNA 4 na CES 2025 e confirmou a chegada da Radeon RX 9070 XT e da RX 9070, mas não fez sequer um comentário sobre a nova arquitetura durante a apresentação.

A empresa, no entanto, afirmou que mais informações sobre a RDNA 4 e as novas GPUs Radeon seriam divulgadas em breve, e aqui estamos.

Hoje, a AMD apresenta o RDNA 4 e as novas GPUs da série Radeon RX 9070. A série RX 9070 estará oficialmente disponível nas lojas de varejo a partir de 6 de março, com as análises de desempenho chegando um dia antes.

AMD RDNA 4: De volta a um design monolítico

O RDNA 4 baseia-se nas metas que a AMD estabeleceu com o RDNA 3. De acordo com a AMD, o RDNA 4 foi projetado para atender a cargas de trabalho de jogos mais pesadas, com foco em melhor desempenho e eficiência de rasterização.

Além disso, há as melhorias habituais nos pipelines de traçado de raios, bem como um foco renovado nos recursos de IA e codificação/decodificação de mídia.

Aumento do desempenho da unidade de computação de RDNA 2 para RDNA 4. (Fonte da imagem: AMD)
Aumento do desempenho da unidade de computação de RDNA 2 para RDNA 4. (Fonte da imagem: AMD)

O RDNA 3 viu o advento de um design de chiplet para GPUs, inspirado nos processadores Ryzen. Aqui, vimos a separação das matrizes de cache de memória (MCDs) da matriz de computação gráfica (GCD).

Com o RDNA 4, no entanto, a AMD está voltando ao design monolítico tradicional. Os componentes são essencialmente os mesmos, mas não há interconexões MCD-GCD, pois a memória e a computação agora estão diretamente interligadas pelo Infinity Cache.

A GPU RDNA 4, neste caso a Radeon RX 9070 XT, apresenta quatro mecanismos de sombreamento com oito processadores de grupo de trabalho (WGPs) cada. Cada WGP é composto por um total de oito unidades de computação (CUs) para um total de 64 CUs.

A AMD afirma que as novas unidades de computação estão agora mais capacitadas do que nunca, permitindo um traçado de raios aprimorado, o dobro da taxa de transferência de pico, suporte para os mais recentes recursos de aceleração de matriz com suporte mais amplo a formatos numéricos.

A novidade da RDNA 4 CU, que já vimos nos núcleos Tensor da arquitetura Ampere da Nvidia, é o suporte à esparsidade estruturada, que permite operações de matriz mais rápidas, especialmente nos casos em que muitos dos pesos são zero.

Também podemos ver melhorias no subsistema de memória. O cache L2 aumenta de 6 MB no RDNA 3 para 8 MB no RDNA 4, enquanto o cache Infinity é atualizado para a 3ª geração, mas cai de 96 MB no RDNA 3 para 64 MB.

A AMD continua a confiar na memória GDDR6 com a nova geração. Tanto a RX 9070 XT quanto a RX 9070 oferecem uma interface de memória GDDR6 de 384 bits e 16 GB com clock de 20 Gbps para uma largura de banda efetiva de 640 GB/s. Isso é muito menor do que a largura de banda de 960 GB/s oferecida pela RDNA 3, mas a AMD diz que as especificações de memória de vídeo da RDNA 4 foram escolhidas cuidadosamente para dar suporte a títulos atuais e futuros.

Arquitetura RDNA 4. (Fonte da imagem: AMD)
Arquitetura RDNA 4. (Fonte da imagem: AMD)
Arquitetura do RDNA 3 para comparação. (Fonte da imagem: AMD)
Arquitetura do RDNA 3 para comparação. (Fonte da imagem: AMD)

Suporte aprimorado ao mecanismo de mídia e à medição de flip de hardware

A codificação de vídeo foi um dos principais problemas do RDNA 3, e a AMD promete melhorias significativas nesse aspecto. A empresa promete grandes melhorias na codificação H.264 e AV1 e menos artefatos de bloqueio para a mesma quantidade de dados.

As melhorias também se estendem à decodificação de vídeo, com redução do consumo de energia e aumento do desempenho durante a decodificação de formatos como AV1 e VP9.

O Radiance Display Engine agora consome muito menos energia em configurações FreeSync de dois monitores. Outra novidade é o suporte à fila de inversão de hardware no Windows Display Driver Model (WDDM) 3.0 para reprodução de vídeo.

Isso libera recursos da CPU ao transferir o agendamento de quadros para a GPU. A tecnologia de geração de vários quadros (MFG) nas GPUs Nvidia Blackwell também se baseia na medição de inversão de hardware.

RDNA 4: Melhorias no mecanismo de mídia. (Fonte da imagem: AMD)
RDNA 4: Melhorias no mecanismo de mídia. (Fonte da imagem: AMD)
O Radiance Display Engine agora oferece suporte à medição de inversão de hardware. (Fonte da imagem: AMD)
O Radiance Display Engine agora oferece suporte à medição de inversão de hardware. (Fonte da imagem: AMD)

Uma olhada na unidade de computação RDNA 4

A princípio, a estrutura de uma UC RDNA 4 não é muito diferente da que vimos com a RDNA 3. No entanto, há melhorias de desempenho e eficiência em cada um dos componentes da UC.

As operações WMMA (Wave Matrix Multiply Accumulate) foram aprimoradas para atender aos requisitos do novo hardware. As unidades de escalonamento recebem atualizações para lidar com operações Float32. O agendador pode dividir e processar uma grande carga de trabalho de computação em barreiras divididas e nomeadas.

A AMD disse que o RDNA 4 foi criado para atender às novas técnicas de renderização que os desenvolvedores usam nos jogos atuais. Embora o upscaling esteja em voga, o rastreamento eficaz de caminhos exige a aceleração de ML como parte do próprio processo de renderização e não como uma reflexão posterior.

RDNA 4: Mecanismo de computação. (Fonte da imagem: AMD)
RDNA 4: Mecanismo de computação. (Fonte da imagem: AMD)
O ML agora faz parte do núcleo do processo de renderização. (Fonte da imagem: AMD)
O ML agora faz parte do núcleo do processo de renderização. (Fonte da imagem: AMD)

Aceleradores de raios no RDNA 4

O RDNA 4 oferece 64 aceleradores de raios de 3ª geração no RX 9070 XT. A estrutura de um acelerador de raios no RDNA 4 é semelhante à do RDNA 3, mas inclui um mecanismo de interseção adicional para 2x o número de unidades de caixa de raios e triângulo de raios.

Há também um transformador de raio de hardware dedicado que alivia a necessidade de usar instruções de sombreamento para fazer o trabalho, minimizando assim a sobrecarga de passagem de raio. Uma memória de 128 KB em cada CU dupla ajuda a manter a pilha de raios para uma operação eficiente de push e sort.

O RDNA 4 introduz o conceito de caixas delimitadoras orientadas (OBBs) que alinha as caixas delimitadoras BVH à geometria, minimizando assim as interações de raios falso-positivos no que, de outra forma, seria apenas um espaço vazio em uma caixa. A AMD afirma que essa abordagem pode melhorar o desempenho da passagem de raios em até 10%.

Outra novidade desta vez é o suporte a solicitações de memória relaxadas e fora de ordem, que reduzem com eficiência o tempo de espera para ondas que não atingiram o cache de alto nível mais cedo. Isso melhora não apenas o traçado de raios, mas também outras cargas de trabalho.

No RDNA 4, os shaders podem alocar dinamicamente registros que permitem acomodar mais ondas em voo com melhor latência de memória.

Estrutura de um acelerador de raios RDNA 4. (Fonte da imagem: AMD)
Estrutura de um acelerador de raios RDNA 4. (Fonte da imagem: AMD)
O RDNA 4 apresenta os OBBs (Fonte da imagem: AMD)
O RDNA 4 apresenta os OBBs (Fonte da imagem: AMD)
O RDNA 4 permite uma ordenação mais relaxada dos fluxos de solicitação de ondas. (Fonte da imagem: AMD)
O RDNA 4 permite uma ordenação mais relaxada dos fluxos de solicitação de ondas. (Fonte da imagem: AMD)
Os aceleradores de raio RDNA 4 oferecem o dobro do desempenho de passagem de raio do que o RDNA 3. (Fonte da imagem: AMD)
Os aceleradores de raio RDNA 4 oferecem o dobro do desempenho de passagem de raio do que o RDNA 3. (Fonte da imagem: AMD)
Alocação de registro de shader dinâmico RDNA 4. (Fonte da imagem: AMD)
Alocação de registro de shader dinâmico RDNA 4. (Fonte da imagem: AMD)
 

Rastreamento de caminho com RDNA 4

As placas AMD têm tido dificuldades com o traçado de raios em geral, de modo que o traçado de caminhos parecia estar fora da equação, mesmo com as placas RDNA 3 de última geração. O RDNA 4 pretende mudar isso com suporte para cache de radiância neural, juntamente com uma nova superamostragem neural e modelo de denoising.

A AMD não forneceu números exatos de desempenho para títulos habilitados para path tracing, mas devemos ter uma ideia ao analisar essas placas.

O RDNA 4 traz suporte aprimorado para rastreamento de caminhos em jogos. (Fonte da imagem: AMD)
O RDNA 4 traz suporte aprimorado para rastreamento de caminhos em jogos. (Fonte da imagem: AMD)
Etapa 1: O rastreamento de caminho começa com 1 amostra por pixel. (Fonte da imagem: AMD)
Etapa 1: O rastreamento de caminho começa com 1 amostra por pixel. (Fonte da imagem: AMD)
Etapa 2: amostragem de grade e cache de radiância neural para aproximar a luz da cena. (Fonte da imagem: AMD)
Etapa 2: amostragem de grade e cache de radiância neural para aproximar a luz da cena. (Fonte da imagem: AMD)
Etapa 3: redefinir a iluminação direta e global. (Fonte da imagem: AMD)
Etapa 3: redefinir a iluminação direta e global. (Fonte da imagem: AMD)
Etapa 4: Superamostragem neural e redução de ruído. (Fonte da imagem: AMD)
Etapa 4: Superamostragem neural e redução de ruído. (Fonte da imagem: AMD)
 

Recursos de IA desenvolvidos com base na Radeon e no Instinct

A AMD disse que o RDNA 4 apresenta pipelines matemáticos dedicados para aceleração de ML focada em alto desempenho com tipos de dados mais restritos. A novidade do RDNA 4 é o suporte para FP8 e BF8 para inferência de alto desempenho e alta precisão.

Demonstrando a geração de imagens SDXL 1.5, a AMD mostrou como a Radeon RX 9070 XT baseada em RDNA 4 oferece o dobro do desempenho FP16 por CU em comparação com a RX 7900 XT baseada em RDNA 3.

Aproveitando os novos recursos de IA do RDNA 4 está o FSR 4, que é um pipeline de ponta a ponta treinado em GPUs AMD. O FSR 4 usa FP8 para otimizar o uso da largura de banda, do desempenho e da potência.

A AMD mostrou melhorias de até 3,7x fps com o FSR 4 quando combinado com a interpolação de quadros e o Radeon Anti-Lag, mantendo a alta qualidade de imagem.

O RDNA 4 oferece pipelines matemáticos dedicados para ML. (Fonte da imagem: AMD)
O RDNA 4 oferece pipelines matemáticos dedicados para ML. (Fonte da imagem: AMD)
2x o desempenho FP16 por CU em comparação com o RDNA 3. (Fonte da imagem: AMD)
2x o desempenho FP16 por CU em comparação com o RDNA 3. (Fonte da imagem: AMD)
O FSR 4 faz uso do recurso FP8 do RDNA 4. (Fonte da imagem: AMD)
O FSR 4 faz uso do recurso FP8 do RDNA 4. (Fonte da imagem: AMD)
Aumento significativo de fps com FSR 4 e interpolação de quadros em 4K. (Fonte da imagem: AMD)
Aumento significativo de fps com FSR 4 e interpolação de quadros em 4K. (Fonte da imagem: AMD)

Fonte(s)

Resumo de imprensa da AMD

Please share our article, every link counts!
Mail Logo
> Análises e revisões de portáteis e celulares > Arquivo de notícias 2025 02 > Mergulho profundo na arquitetura AMD RDNA 4: Um design monolítico de 64 CPUs com melhorias abrangentes para computação, codificação e decodificação de mídia, traçado de raios e IA
Vaidyanathan Subramaniam, 2025-02-28 (Update: 2025-02-28)