Notebookcheck Logo

A ferramenta de IA DiffUHaul da Nvidia pode mover objetos em imagens

O modelo de IA DiffUHaul da Nvidia pode mover objetos em imagens (Fonte da imagem: Omri Avrahami no YouTube)
O modelo de IA DiffUHaul da Nvidia pode mover objetos em imagens (Fonte da imagem: Omri Avrahami no YouTube)
Pesquisadores da Nvidia desenvolveram uma nova ferramenta de IA que pode realocar objetos em imagens. A ferramenta pode alterar a posição de um objeto em uma imagem sem afetar o plano de fundo.

Pesquisadores da Nvidia publicaram um artigo sobre uma nova ferramenta de IA, a DiffUHaul, que pode compreender e mover objetos em uma imagem sem alterar o tamanho ou o plano de fundo. O artigo diz que a ferramenta "aproveita a compreensão espacial de um modelo localizado de texto para imagem para a tarefa de arrastar objetos"

Os modelos atuais de texto para imagem têm dificuldades com tarefas complexas de edição de imagens porque não possuem "raciocínio espacial" O DiffuHaul resolve esse problema incorporando isso ao modelo, permitindo que ele rastreie objetos em uma imagem, realocando-os "perfeitamente" sem alterar nada mais.

Para conseguir isso, a ferramenta mascara o objeto durante as etapas de redução de ruído, ajudando a entender sua localização e a separá-lo do plano de fundo. Em seguida, ela interpola a diferença entre a imagem original e a gerada para colocar o objeto em uma nova posição sem tocar no plano de fundo. Depois disso, os detalhes mais finos e os recursos da imagem original são movidos para a nova imagem para fins de consistência.

O DiffUHaul é baseado no BlobGENum modelo que usa a compreensão espacial para compor imagens a partir de solicitações complexas. O documento afirma que a ferramenta é livre de treinamento, o que significa que ela foi criada sem nenhum conjunto de dados e funciona imediatamente.

Please share our article, every link counts!
Mail Logo
> Análises e revisões de portáteis e celulares > Arquivo de notícias 2024 12 > A ferramenta de IA DiffUHaul da Nvidia pode mover objetos em imagens
Rohith Bhaskar, 2024-12- 3 (Update: 2024-12- 3)