Notebookcheck Logo

O maior conjunto de dados de imagens de treinamento de IA é colocado off-line após a descoberta de material ilícito preocupante

O conjunto de dados LAION-5B contém mais de 5,8 bilhões de pares imagem-texto (Fonte da imagem: LAION - editado)
O conjunto de dados LAION-5B contém mais de 5,8 bilhões de pares imagem-texto (Fonte da imagem: LAION - editado)
Um estudo de Stanford descobriu milhares de imagens explícitas de abuso infantil no LAION-5B, o maior conjunto de dados de imagens para treinamento de modelos de IA, incluindo o Stable Diffusion. Após essa revelação, o LAION colocou temporariamente seus conjuntos de dados off-line para garantir sua segurança antes de republicá-los.

Um estudo publicado no site https://purl.stanford.edu/kh752sm9123 pelo Stanford Internet Observatory fez uma descoberta perturbadora: o LAION-5B, o maior conjunto de dados de imagens usado para treinamento de Modelos de geração de imagens de IA contém 3.226 imagens suspeitas de serem material de abuso sexual infantil (CSAM). Desde então, o LAION retirou seu conjunto de dados do acesso público, até que possa se certificar de que eles estão livres de qualquer conteúdo inseguro.

O LAION-5B, um conjunto de dados de código aberto que consiste em mais de 5,8 bilhões de pares de URLs de imagens on-line e legendas correspondentes, é usado para treinar modelos de IA, incluindo o altamente popular Stable Diffusion (Difusão estável). Ele foi criado com o uso do Common Crawl para raspar a Internet em busca de uma grande variedade de imagens.

David Thiel e a equipe de pesquisadores de Stanford, autores do estudo, começaram filtrando o conjunto de dados usando os classificadores NSFW do LAION e, em seguida, recorreram ao PhotoDNAuma ferramenta comumente usada para moderação de conteúdo nesse contexto. Como a visualização de CSAM é ilegal, mesmo para fins de pesquisa, a equipe utilizou o hashing perceptual, que cria uma assinatura digital exclusiva para cada imagem e usa essa assinatura para compará-la a uma imagem de teste para verificar se é idêntica ou semelhante. Além disso, a equipe enviou as "correspondências definitivas" para serem validadas pelo Canadian Centre for Child Protection.

Após a publicação do estudo, um porta-voz da Stable Diffusion disse à 404 Media que a empresa tem vários filtros internos que não só eliminariam o CSAM e outros materiais ilegais e ofensivos dos dados realmente usados no treinamento, mas também garantiriam que os prompts de entrada e as imagens geradas pelo modelo de IA fossem limpos.

De acordo com a lei federal dos EUA, é ilegal possuir e transmitir não apenas CSAM, mas também "filme não revelado, fita de vídeo não revelada e dados armazenados eletronicamente que possam ser convertidos em uma imagem visual". No entanto, como conjuntos de dados como o LAION-5B contêm apenas URLs e não as imagens em si, a legalidade exata em torno deles não é clara. A questão mais ampla é ainda mais exacerbada pelo fato de que o CSAM gerado por IA é difícil de distinguir do CSAM real, e está em ascensão. Embora 3200 imagens entre 5 bilhões possam parecer insignificantes, a possível influência desses dados de treinamento "contaminados" sobre o resultado dos modelos de IA generativos não pode ser ignorada.

O estudo publicado por David Thiel e sua equipe destaca uma das mais preocupantes consequências da súbita proliferação da IA. Encontrar soluções para essas preocupações será uma tarefa lenta e difícil nos próximos anos, envolvendo em partes iguais o legislativo, as autoridades policiais, o setor de tecnologia, os acadêmicos e o público em geral.

Please share our article, every link counts!
> Análises e revisões de portáteis e celulares > Arquivo de notícias 2023 12 > O maior conjunto de dados de imagens de treinamento de IA é colocado off-line após a descoberta de material ilícito preocupante
Vishal Bhardwaj, 2023-12-23 (Update: 2023-12-23)