Comunicações internas que vazaram revelam que a Nvidia coleta diariamente vídeos do YouTube que valem uma vida inteira para treinar o modelo de IA de vídeo, e Jensen está satisfeito com o progresso

Os engenheiros da Nvidia estão extraindo vídeos do YouTube e de outras fontes para treinar o modelo de base de vídeo Cosmos da empresa. (Fonte da imagem: Nvidia)

Comunicações internas da Nvidia no Slack obtidas pela 404 Media revelaram que a equipe da empresa que trabalha no modelo de base de vídeo Cosmos compilou até agora 38,5 milhões de horas de vídeo de várias fontes, principalmente do YouTube. Os funcionários destacaram possíveis preocupações com direitos autorais, mas os executivos mais altos aparentemente deram uma "aprovação geral" para seguir em frente e extrair o conteúdo.

Vaidyanathan Subramaniam (traduzido por Ninh Duy), Publicado 08/06/2024 🇺🇸 🇫🇷 ...

AI Cyberlaw Nvidia

A Nvidia está treinando seu Omniverse, carros autônomos e carros "humanos digitais" com base em dados extraídos de "80 anos de vídeos por dia" do YouTube e de outras fontes, revelou uma investigação da 404 Media.

Comunicações internas vazadas obtidas pelo 404 Media indicam que a Nvidia está usando esses dados para treinar seu modelo de mundo de vídeo de IA apelidado de Cosmos (não confundir com o serviço de aprendizagem profunda Cosmos existente da empresa)). O Cosmos está internamente programado para ser um modelo que alimentaria outras linhas da Nvidia, incluindo GeForce, arquitetura de GPU, DGX, estruturas de Deep Learning, Omniverse, Avatar, Project GR00T e veículos autônomos.

Os executivos da Nvidia apelidaram o Cosmos como um modelo de base de última geração"que encapsula a simulação de transporte de luz, física e inteligência em um só lugar para desbloquear vários aplicativos downstream essenciais para a Nvidia"

a 404 Media acessou mensagens internas do Slack de funcionários que revelaram como a equipe usou o programa de linha de comando yt-dlp para baixar vídeos do YouTube usando de 20 a 30 máquinas virtuais da AWS que atualizam os endereços IP para evitar serem bloqueados pelo YouTube. O site de compartilhamento de vídeos foi a principal fonte para a extração de vídeos, e os funcionários também analisaram outras fontes, como Netflix e Discovery Channel.

As comunicações do Slack mostram os funcionários discutindo as ramificações legais da extração de conteúdo protegido por direitos autorais para treinar a IA, o que foi descartado pelos gerentes de projeto como uma decisão executiva, e isso é algo com que eles não precisam se preocupar.

Os canais populares do YouTube que os funcionários da Nvidia selecionaram incluem MKBHD, PickUpLimes, Architectural Digest, Expedia, Mediastorm6801, 8kEarth e The CriticalDrinker, entre outros.

Quando contatadas pela 404 Media, tanto o YouTube quanto a Netflix disseram que a extração de conteúdo em suas plataformas para treinar modelos de IA é uma clara violação de seus termos de serviço.

O uso de dados protegidos por direitos autorais para treinar modelos de IA ainda é uma área cinzenta do ponto de vista jurídico. Conjuntos de dados públicos, como InternVid-10M, HD-VG-130Me outros baseados em milhões de vídeos do YouTube, mas eles se destinam apenas à pesquisa acadêmica e não a fins comerciais. Embora a Nvidia tenha pesquisadores acadêmicos, o resultado acabará chegando a um produto comercial.

Existem poucas legislações nesse sentido, que determinam padrões de transparência e exigem que as empresas que trabalham com modelos fundamentais de IA trabalhem com a FTC e o Copyright Office. Mas as empresas não necessariamente divulgam seus conjuntos de dados de origem, o que torna a auditoria muito mais difícil.

Como as principais empresas de IA continuam a colocar as mãos em todos os dados públicos disponíveis para treinar modelos mais eficazes, as mudanças legislativas são uma necessidade urgente para garantir a segurança do consumidor e proteger a propriedade intelectual do criador.

No ano passado, o The New York Times processou a OpenAI e a Microsoft por uso não autorizado dos artigos protegidos por direitos autorais da publicação para treinar modelos de IA. Em maio, os artistas visuais entraram com uma ação judicial contra a Stability AI, Midjourney, DeviantArt e Runway AI por usarem cópias de seus trabalhos para treinar modelos de IA sem permissão.

O YouTube está se tornando uma mina de ouro de dados para as empresas de IA. Recentemente, a Wired informou que pesos pesados, incluindo Apple, Nvidia, Anthropic e Salesforce, extraíram legendas de 173.536 vídeos do YouTube de mais de 48.000 canais para treinar sua IA.

Até o final de maio, a equipe da Nvidia anunciou internamente que havia compilado 38,5 milhões de URLs de vídeos, sendo a maioria deles de conteúdo cinematográfico. Os engenheiros também adicionaram conjuntos de dados, como Ego-Exo4D, Ego4D, HOI4De dados de jogos do site GeForce Now.

Enquanto o Ego-Exo4D e o Ego4D podem ser licenciados para uso acadêmico e comercial, o HOI4D é distribuído sob uma licença CC BY-NC que proíbe especificamente o uso comercial.

Atualmente, a equipe está treinando um modelo de 1B com 16 nós cada, com planos de aumentar para 10B.

A Nvidia disse à 404 Media por e-mail que"nossos modelos e nossos esforços de pesquisa estão em total conformidade com a letra e o espírito da lei de direitos autorais"

Enquanto isso, o CEO da Nvidia, Jensen Huang, parece estar feliz com o progresso que sua equipe está fazendo.

Ele teria exclamado: "Ótima atualização. Muitas empresas precisam criar FMs de vídeo [modelos fundamentais]. Podemos oferecer um pipeline totalmente acelerado"

Conjuntos de dados indicados para o treinamento do Cosmos pelo cientista principal da Nvidia, Francesco Ferroni (Fonte: 404 Media)

Canais populares do YouTube recomendados pela equipe da Nvidia para o treinamento do Cosmos. (Fonte: 404 Media)

Gráfico que mostra a distribuição de vídeo compilada a partir de 38,5 milhões de URLs. (Fonte: 404 Media)

SCOOP from @samleecole: Leaked Slacks and documents show the incredible scale of NVidia's AI scraping: 80 years — "a human lifetime" of videos every day. Had approval from highest levels of company despite staff legal/ethical concerns:https://t.co/DydXOyffUQ
— Jason Koebler (@jason_koebler) August 5, 2024

Fonte(s)

404 Mídia (requer registro)

@jason_koebler no X

Artigos Relacionados

A EaseUS lança um serviço gratuito de conversão de vídeo em transcrição para vídeos do YouTube. (Fonte da imagem: EaseUS)

EaseUS apresenta o serviço gratuito YouTube Transcript Generator 02/11/2025

O SS One é o codinome do console e não seu nome final no varejo. (Fonte da imagem: Taki Udon)

Console de jogos FPGA 'inspirado no PS One' do popular YouTuber revelado com preço inicial de US$ 149 01/09/2025

Página inicial do YouTube (Fonte da imagem: Gerada usando DALL-E 3)

YouTube supostamente testando uma página inicial sem contagem de visualizações e informações sobre a data de upload 10/30/2024

O YouTube (e o Google) têm práticas agressivas de rastreamento de dados, mas há maneiras de manter seus dados do YouTube em casa. (Fonte da imagem: OpenArt.ai)

O senhor está livre do rastreamento do YouTube, vale a pena (ou é prático) hospedar seu próprio front-end do YouTube? 10/06/2024

Shirley Curry, "The Skyrim Grandma", encerra sua carreira no YouTube após cerca de dez anos e mais de 2.000 Let's Plays no YouTube. (Fonte da imagem: YouTube / Shirley Curry)

Aos 88 anos, a avó de Skyrim se despede do YouTube 09/24/2024

O Nvidia G-Sync agora será executado diretamente nos dimensionadores de tela MediaTek sem a necessidade de um módulo dedicado. (Fonte da imagem: Nvidia)

O Nvidia G-Sync está pronto para se tornar mais barato e mais difundido graças à colaboração da MediaTek 08/21/2024

A GeForce RTX 4070 será lançada em breve em uma versão um pouco mais lenta. (Fonte da imagem: Nvidia)

Nvidia GeForce RTX 4070 potencialmente mais barata com VRAM GDDR6 será lançada em 20 de agosto 08/13/2024

a eGPU com GPU ultraportátil da série RTX 40 da Nvidia está a caminho (Fonte da imagem: Notebookcheck)

O fabricante confirma a nova eGPU Nvidia RTX série 40 com a GPU inédita da série M 08/08/2024

A Nvidia se une à Falcon Northwest para oferecer um PC para jogos com a RTX 4090 08/06/2024

A Nvidia está proibida de vender a GPU de datacenter H100 para clientes chineses. (Fonte da imagem: Nvidia, ridvan-selli no Pixabay, editado)

Contrabandistas supostamente fornecem à China chips de IA da Nvidia proibidos, no valor de milhões de dólares, enquanto os EUA tentam apertar o embargo comercial 08/06/2024

A Nvidia RTX 3060 é atualmente a GPU mais popular na lista de pesquisa de hardware do Steam (Fonte da imagem: Nvidia)

Insider afirma que a Nvidia descontinuou discretamente a GPU mais popular atualmente 08/05/2024

A Microsoft adiciona opções de GPU da Nvidia e da AMD às ofertas do Windows 365 Cloud PC. (Fonte da imagem: Microsoft)

A Microsoft adiciona opções de GPU da Nvidia e da AMD às ofertas de PCs na nuvem do Windows 365 08/04/2024

A Nvidia lançou a RTX 4080 em novembro de 2022 a um preço de US$ 1.199. (Fonte da imagem: Notebookcheck, Ally Griffin no Unsplash, editado)

Os jogadores serão atingidos por aumentos de preços da série RTX 40, já que a Nvidia supostamente iniciou um corte maciço no fornecimento 08/02/2024

O Megamini G1 é poderoso. (Fonte da imagem: Geekom)

Megamini 1: O PC inclui uma CPU potente, uma placa de vídeo Nvidia pronta para jogos e refrigeração a água em um chassi compacto 07/28/2024

O Khadas Mind Graphics eGPU Module pode oferecer até 128 GT/s de transmissão de dados (Fonte da imagem: Khadas)

O módulo eGPU Khadas Mind Graphics inclui a Nvidia RTX 4060 Ti para desktop 07/16/2024

Snapdragon 8 Gen 4: o vazador anunc...

Apple o primeiro dispositivo dobráv...

Editor of the original article: Vaidyanathan Subramaniam - Managing Editor - 1997 articles published on Notebookcheck since 2012

contact me via: @Geeky_Vaidy

Translator: Ninh Ngoc Duy - Editorial Assistant - 522633 articles published on Notebookcheck since 2008

contact me via: Facebook

Please share our article, every link counts!

> Análises e revisões de portáteis e celulares > Arquivo de notícias 2024 08 > Comunicações internas que vazaram revelam que a Nvidia coleta diariamente vídeos do YouTube que valem uma vida inteira para treinar o modelo de IA de vídeo, e Jensen está satisfeito com o progresso

Vaidyanathan Subramaniam, 2024-08- 6 (Update: 2024-08- 6)