O Fugatto 1 da Nvidia pode sintetizar áudio para criar novos sons

O Fugatto 1 da Nvidia pode sintetizar áudio para criar novos sons (Fonte da imagem: Fugatto Github)

A Nvidia revelou um novo modelo de IA generativa que pode sintetizar áudio para criar sons exclusivos. A empresa diz que o modelo será comercializado para o setor de entretenimento para música, filmes e videogames.

Rohith Bhaskar (traduzido por Ninh Duy), Publicado 11/26/2024 🇺🇸 🇮🇹 ...

A Nvidia exibiu um novo modelo de IA generativa que pode sintetizar áudio por meio de instruções de texto simples e entradas de áudio contextuais para criar sons exclusivos. A Nvidia prevê o Fugatto 1 "como uma ferramenta para criativos, capacitando-os a dar vida rapidamente a suas fantasias sônicas e sons inéditos - um instrumento para a imaginação, não um substituto para a criatividade"

Em seu artigo de pesquisa https://fugatto.github.io/FUGATTO_ICLR_2025.pdfa equipe afirma que os Large Language Models (LLMs) treinados em texto podem aprender a inferir instruções a partir de entradas, mas os LLMs treinados exclusivamente em áudio não podem fazer isso. O áudio não possui dados que mostrem como ele foi criado.

O Fugatto 1 da Nvidia usa um conjunto de dados especializado que extrai uma ampla gama de sons e um método para compreender e controlar instruções chamado ComposeableART. Isso permite que o modelo crie um conjunto de dados emergente que pode ajudar o modelo a combinar diferentes sons, mesmo aqueles para os quais não foi treinado.

A Nvidia mostrou alguns exemplos do modelo em ação na página do Github de Fugattocomo a capacidade de sintetizar o som de um cachorro latindo em sincronia com música eletrônica, uma máquina de escrever que sussurra cada letra digitada e até mesmo um saxofone que mia ou late.

Até o momento, a Nvidia não tem planos de lançar o modelo publicamente.