Notebookcheck Logo

Air Head creators say OpenAI's Sora finicky to work with, needs hundreds of prompts, serious VFX work for under 2 minutes of cohesive story

A Shy Kids criou o Air Head em colaboração com o modelo de geração de vídeo Sora da OpenAI. (Fonte da imagem: Shy Kids no YouTube)
A Shy Kids criou o Air Head em colaboração com o modelo de geração de vídeo Sora da OpenAI. (Fonte da imagem: Shy Kids no YouTube)
Recentemente, a OpenAI exibiu um impressionante demo reel criado pela produtora Shy Kids usando seu gerador de vídeo Sora. Acontece que a Shy Kids investiu uma quantidade incrível de trabalho na pós-produção do Air Head, apesar da afirmação da OpenAI de que o Sora facilita a produção de vídeos.

Quando a OpenAI anunciou o Sora, seu gerador de vídeo com IA, um dos vídeos usados para demonstrar seus recursos foi o curta-metragem do Shy Kids intitulado Air Head. Embora o vídeo tenha sido inicialmente apresentado como um impressionante show reel para o modelo da OpenAI, uma recente entrevista do FX Guide com a Shy Kids revela que o vídeo exigiu muito mais trabalho do que muitos pensavam.

Embora o que Sora possa fazer seja certamente impressionante e fosse quase impossível de fazer há apenas um ou dois anos, a equipe da Shy Kids ainda levou quase duas semanas para criar Air Head, principalmente devido às limitações da IA. Um dos maiores obstáculos que a Shy Kids enfrentou com o Sora foi a falta de coesão, o que forçou a equipe de produção a usar um método de edição pouco ortodoxo, não muito diferente da criação de um filme ou documentário de found footage.

Era só pegar um monte de fotos e tentar cortá-las de uma forma interessante para o VO. - Patrick Cederberg, pós-produção em Air Head

A Shy Kids diz que tinha um roteiro para o vídeo, mas a equipe teve que ser fluida e se adaptar à produção variada gerada pela Sora. A Shy Kids também teve dificuldade em manter a consistência entre as filmagens, já que a Sora frequentemente gerava um tipo diferente de cabeça no balão. No geral, Cederberg diz que foram necessárias "centenas de gerações" para obter um pouco menos de um minuto e meio de filmagem editada para o vídeo. Ele também estima que a proporção entre o material de origem e o conteúdo final foi de 300:1, o que significa que a Shy Kids usou apenas cerca de 0,33% do vídeo gerado por Sora em sua edição final.

Minha matemática é ruim, mas eu diria que provavelmente 300:1 em termos de quantidade de material de origem para o que acabou no final.

No entanto, trabalhar com o Sora significou mais do que apenas gerar centenas de clipes. A equipe também teve de executar manualmente todas as tarefas regulares, como gradação de cores, retiming e até mesmo efeitos visuais para remover elementos indesejados do quadro. Em um dos clipes gerados, o Sora produziu um balão com um rosto impresso na frente e, em outros, o balão tinha cores diferentes ou um fio indesejado pendurado na parte inferior, e tudo isso teve que ser removido.

Em aplicações mais avançadas de efeitos visuais, a equipe da Shy Kids removeu uma cabeça inteira que havia sido gerada em Sonny, o personagem principal, no lugar do balão. Coisas como essas foram removidas no Adobe After Effects(que custa US$ 34,99/mês e está disponível na Amazon) para chegar a um produto final.

Embora a Sora e o vídeo com IA generativa tenham percorrido um longo caminho, parece que estão longe de substituir os artistas nos bastidores, especialmente se o conteúdo que está sendo produzido tiver a intenção de ser coerente ou algo mais longo do que alguns segundos. Isso provavelmente também explica por que, com exceção de dois, todos os clipes "não editados" que a OpenAI publicou em sua página do Sora são todos da ordem de 20 segundos ou menos.

Please share our article, every link counts!
> Análises e revisões de portáteis e celulares > Arquivo de notícias 2024 04 > Sora, da OpenAI, é difícil de trabalhar, precisa de centenas de comandos, trabalho sério de efeitos visuais para menos de 2 minutos de história coesa
Julian van der Merwe, 2024-04-27 (Update: 2024-08-15)