O maior conjunto de dados de imagens de treinamento de IA é colocado off-line após a descoberta de material ilícito preocupante
Um estudo publicado no site https://purl.stanford.edu/kh752sm9123 pelo Stanford Internet Observatory fez uma descoberta perturbadora: o LAION-5B, o maior conjunto de dados de imagens usado para treinamento de Modelos de geração de imagens de IA contém 3.226 imagens suspeitas de serem material de abuso sexual infantil (CSAM). Desde então, o LAION retirou seu conjunto de dados do acesso público, até que possa se certificar de que eles estão livres de qualquer conteúdo inseguro.
O LAION-5B, um conjunto de dados de código aberto que consiste em mais de 5,8 bilhões de pares de URLs de imagens on-line e legendas correspondentes, é usado para treinar modelos de IA, incluindo o altamente popular Stable Diffusion (Difusão estável). Ele foi criado com o uso do Common Crawl para raspar a Internet em busca de uma grande variedade de imagens.
David Thiel e a equipe de pesquisadores de Stanford, autores do estudo, começaram filtrando o conjunto de dados usando os classificadores NSFW do LAION e, em seguida, recorreram ao PhotoDNAuma ferramenta comumente usada para moderação de conteúdo nesse contexto. Como a visualização de CSAM é ilegal, mesmo para fins de pesquisa, a equipe utilizou o hashing perceptual, que cria uma assinatura digital exclusiva para cada imagem e usa essa assinatura para compará-la a uma imagem de teste para verificar se é idêntica ou semelhante. Além disso, a equipe enviou as "correspondências definitivas" para serem validadas pelo Canadian Centre for Child Protection.
Após a publicação do estudo, um porta-voz da Stable Diffusion disse à 404 Media que a empresa tem vários filtros internos que não só eliminariam o CSAM e outros materiais ilegais e ofensivos dos dados realmente usados no treinamento, mas também garantiriam que os prompts de entrada e as imagens geradas pelo modelo de IA fossem limpos.
De acordo com a lei federal dos EUA, é ilegal possuir e transmitir não apenas CSAM, mas também "filme não revelado, fita de vídeo não revelada e dados armazenados eletronicamente que possam ser convertidos em uma imagem visual". No entanto, como conjuntos de dados como o LAION-5B contêm apenas URLs e não as imagens em si, a legalidade exata em torno deles não é clara. A questão mais ampla é ainda mais exacerbada pelo fato de que o CSAM gerado por IA é difícil de distinguir do CSAM real, e está em ascensão. Embora 3200 imagens entre 5 bilhões possam parecer insignificantes, a possível influência desses dados de treinamento "contaminados" sobre o resultado dos modelos de IA generativos não pode ser ignorada.
O estudo publicado por David Thiel e sua equipe destaca uma das mais preocupantes consequências da súbita proliferação da IA. Encontrar soluções para essas preocupações será uma tarefa lenta e difícil nos próximos anos, envolvendo em partes iguais o legislativo, as autoridades policiais, o setor de tecnologia, os acadêmicos e o público em geral.
Fonte(s)
Os Top 10
» Os Top 10 Portáteis Multimídia
» Os Top 10 Portáteis de Jogos
» Os Top 10 Portáteis Leves para Jogos
» Os Top 10 Portáteis Acessíveis de Escritório/Empresariais
» Os Top 10 Portáteis Premium de Escritório/Empresariais
» Os Top 10 dos Portáteis Workstation
» Os Top 10 Subportáteis
» Os Top 10 Ultrabooks
» Os Top 10 Conversíveis
» Os Top 10 Tablets
» Os Top 10 Smartphones
» A melhores Telas de Portáteis Analisadas Pela Notebookcheck
» Top 10 dos portáteis abaixo dos 500 Euros da Notebookcheck
» Top 10 dos Portáteis abaixo dos 300 Euros