Google apresenta a IA generativa Lumiere para criar imagens e vídeos mais realistas a partir de textos
O Google apresentou o Lumiere, o que há de mais moderno em IA realista de texto para imagem e vídeo. O software aprimora bastante o movimento usando uma nova abordagem para a geração de quadros de vídeo que cria todos os quadros em uma única passagem para reduzir os erros de movimento.
A IA geradora de imagens cria imagens a partir de texto. Um fator importante que permite isso é a enorme quantidade de imagens e vídeos on-line disponíveis para treinamento. Outro é o desenvolvimento de métodos para associar todas as palavras de um idioma umas às outras por meio de vetores. Portanto, a IA pode entender como um par de palavras, ou em uma frase, "eu sou" é mais provável do que "eu unilateralmente". A IA de criação de imagens, como a Stable Diffusion, associa palavras a imagens de objetos. Essa IA entende que as palavras "residência real" estão mais associadas a uma imagem de "castelo" do que a uma imagem de "casa".
A IA de vídeo generativa amplia a IA de imagem para criar vídeos a partir de texto. Os concorrentes da Lumiere criam primeiro os quadros-chave e depois os quadros intermediários. É como se um mestre animador desenhasse as imagens do início e do fim de um arremesso de basquete e, em seguida, um assistente desenhasse as imagens intermediárias. O problema é que, muitas vezes, ocorrem erros de movimento porque as imagens intermediárias não são desenhadas corretamente, de modo que a Lumiere contorna esse problema criando todos os quadros de vídeo sem keyframes. Além disso, a Lumiere é treinada para saber como os objetos em movimento se parecem em vários tamanhos de imagem, de modo que seus vídeos têm uma aparência superior.
Tecnicamente, o Lumiere utiliza modelos probabilísticos de difusão para gerar imagens acopladas a uma U-Net espaço-temporal, uma arquitetura de U-net com escalonamento temporal para cima e para baixo, além de blocos de atenção adicionados ao escalonamento usual da resolução da imagem. O escalonamento para baixo temporalmente, simultaneamente à resolução, reduz significativamente as cargas de trabalho computacionais, enquanto o escalonamento para cima, associado a um modelo de super-resolução espacial com consciência temporal, gera o resultado de alta resolução. Ainda assim, a segmentação de quadros de imagem é necessária devido a limitações de memória, de modo que a multidifusão é usada em limites de segmentos de quadros sobrepostos para ajudar a atenuar os artefatos de movimento temporal.
O Lumiere pode ser acoplado a outras IAs para criar uma gama mais ampla de resultados. Isso inclui:
- Cinemagraphs - uma seção de uma imagem é animada
- Inpainting - um objeto em um vídeo é substituído por outro
- Geração estilizada - a aparência é recriada em outro estilo de arte
- Image-to-video (imagem para vídeo) - uma imagem desejada é animada
- Vídeo para vídeo - os vídeos são recriados em outro estilo artístico
A duração do vídeo é limitada a 5 segundos, enquanto a capacidade de criar transições de vídeo e vários ângulos de câmera é inexistente. Os leitores interessados em fazer experiências com IA generativa em seus computadores desktop devem fazer upgrade para uma placa de vídeo potente(como esta da Amazon) para obter o melhor desempenho durante o treinamento.
Os Top 10
» Os Top 10 Portáteis Multimídia
» Os Top 10 Portáteis de Jogos
» Os Top 10 Portáteis Leves para Jogos
» Os Top 10 Portáteis Acessíveis de Escritório/Empresariais
» Os Top 10 Portáteis Premium de Escritório/Empresariais
» Os Top 10 dos Portáteis Workstation
» Os Top 10 Subportáteis
» Os Top 10 Ultrabooks
» Os Top 10 Conversíveis
» Os Top 10 Tablets
» Os Top 10 Smartphones
» A melhores Telas de Portáteis Analisadas Pela Notebookcheck
» Top 10 dos portáteis abaixo dos 500 Euros da Notebookcheck
» Top 10 dos Portáteis abaixo dos 300 Euros