CheckMag | Como hospedar seu próprio gerador de imagens de IA com o Invoke AI e o Stable Diffusion

O Invoke AI é uma maneira simples de executar uma série de modelos de geração de imagens em seu próprio hardware (Fonte da imagem: Invoke AI)

Há várias ferramentas que permitem que o senhor aproveite seu próprio gerador de imagens de IA sem depender de serviços em nuvem, que geralmente são pagos e vêm com uma série de limitações. No entanto, o Invoke AI permite executar uma série de modelos e ferramentas, inclusive Stable Diffusion, possibilitando a geração de praticamente qualquer coisa que o senhor possa imaginar. É possível obter resultados decentes com um hardware modesto e uma GPU relativamente recente. Veja a seguir como começar.

David Devey, 👁 David Devey (traduzido por Ninh Duy), Publicado 02/01/2025 🇺🇸 🇫🇷 ...

Há uma série de motivos pelos quais o senhor pode querer hospedar seu próprio gerador de imagens de IA. Se quiser evitar as marcas d'água e a publicidade, gerar várias imagens sem a assinatura ou levar sua geração de imagens além do que é permitido eticamente pelo serviço, hospedar sua própria instância e usar os dados de treinamento de uma empresa como a Stable Diffusion permite que o senhor mantenha o controle total sobre o que sua IA gera.

Para começar, o senhor precisa fazer o download da edição comunitária do Invoke AI em aqui. No Windows, quase todo o processo de instalação agora é automatizado, com todas as dependências necessárias sendo instaladas. No entanto, esse pode não ser o caso das versões para Linux e macOS, portanto, o senhor pode variar. Para nossos experimentos, usamos uma máquina virtual executando o Windows 11, com 8 núcleos de um Ryzen 9 5950 alocado, uma RTX 4070 (disponível na Amazon) transferida para a VM e 24 GB de RAM em execução em um SSD NVMe de 1 TB. As GPUs AMD são compatíveis, mas somente no Linux.

Depois de passar pelo processo de instalação, inicie o Invoke AI para gerar os arquivos de configuração e, em seguida, desligue-o. O motivo disso é que é recomendável fazer algumas alterações em várias partes do sistema para ativar o "modo Low-VRAM".

Embora o Invoke AI não especifique o que constitui uma VRAM baixa, a RAM de 12 GB do RTX 4070 provavelmente não vai rodar um modelo de 24 GB. Para fazer isso, o senhor precisa editar o arquivo invokeai.yaml encontrado na pasta de instalação com um editor de texto e adicionar a linha:

enable_partial_loading: true

Depois de editado, para os usuários do Windows que executam GPUs da Nvidia, é necessário definir CUDA - Sysmem Fallback Policy como "Prefer No Sysmem Fallback" nas configurações globais dos painéis de controle da Nvidia. O senhor pode personalizar a quantidade de cache que deseja alocar para a VRAM, mas, para a maioria das pessoas, basta ativar o "Low-VRAM mode" para começar.

O senhor precisará fazer o download de alguns modelos pré-treinados para que o Invoke AI funcione. Isso pode ser feito no Model Manager (Fonte da imagem: David Devey) — O senhor precisará fazer download de alguns modelos pré-treinados para que o Invoke AI funcione. Isso pode ser feito no Model Manager

Alguns modelos podem ser baixados imediatamente, como o Dreamshaper e o CyberRealistic, mas para usar o Stable Diffusion, o senhor precisará criar uma contano Hugging Face e gerar um token para permitir que o Invoke AI faça o download do modelo. No entanto, há maneiras de adicionar modelos por meio de URL, caminho local ou varredura de uma pasta. Para criar o token, clique no avatar da sua conta no canto superior direito e selecione "Access Tokens" (Tokens de acesso). O senhor pode chamar o token como quiser, mas precisa dar acesso ao seguinte:

O senhor precisará de um token de acesso para poder fazer o download do modelo Stable Diffusion (Fonte da imagem: David Devey) — O senhor precisará de um token de acesso para poder fazer o download do modelo Stable Diffusion

Copie o token e cole-o na caixa da seção Hugging Face da guia de modelos. Talvez o senhor precise permitir o acesso com uma confirmação no site. O senhor não precisa se inscrever para receber atualizações, e o Invoke AI deve avisá-lo quando precisar conceder acesso.

Lembre-se de que vários modelos ocuparão uma boa parte do armazenamento, dependendo do que o senhor optar por baixar. O Stable Diffusion 3.9 tem cerca de 19 GB.

Se o senhor tiver configurado tudo corretamente, estará pronto para começar. O senhor pode acessar a interface por meio de um navegador da Web no computador host, acessando http://127.0.0.1:9090. Não há nada que o impeça de disponibilizar isso para outras máquinas na rede local.

Na guia "canvas", o senhor pode digitar um prompt de texto para gerar uma imagem. Logo abaixo, é possível definir a resolução da imagem que deseja gerar; lembre-se de que quanto maior a resolução, mais demorado será o processo, embora seja possível gerar em uma resolução mais baixa e usar uma das ferramentas de aumento de escala para produzir uma resolução mais alta. Abaixo disso, o senhor pode selecionar o modelo que deseja usar. Dos quatro modelos testados, Juggernaut XL, Dreamshaper 8, CyberRealistic v4.8 e Stable Diffusion 3.5 (Large), o Stable Diffusion produziu imagens mais fotorrealistas, embora tenha tido problemas para interpretar os avisos de texto, enquanto os outros produziram imagens semelhantes a cenas cortadas em jogos.

Prompt: Um elfo na floresta carregando uma espada lutando contra um orc - Embora seja o menos preciso em termos de solicitação, o Stable Diffusion produz as imagens mais realistas (Fonte da imagem: David Devey) — Prompt: Um elfo na floresta carregando uma espada lutando contra um orc - Embora seja o menos preciso em termos de solicitação, o Stable Diffusion produz as imagens mais realistas

Obviamente, o melhor modelo é aquele que oferece os melhores resultados para o seu caso de uso. O Stable Diffusion foi de longe o mais lento, levando cerca de 30 a 50 segundos para produzir uma imagem, mas os resultados certamente pareceram ser os mais realistas e agradáveis de todos os quatro modelos testados.

Solicitações:

No alto, à esquerda: Uma mulher inteligente andando por uma rua, olhando para trás, para a câmera, com o tráfego do lado esquerdo
No alto, à direita: Um cachorro pug lambendo uma banana
Parte inferior esquerda: Um homem do espaço de brinquedo sentado na metade de uma casca de ovo na superfície da lua
Embaixo à direita: Uma garota de cabelos loiros e olhos azuis em casa comendo pipoca

O Stable Diffusion oferece o que parece ser as imagens mais fotorrealistas. É útil, mas tem suas falhas (Fonte da imagem: David Devey) — O Stable Diffusion oferece o que parece ser as imagens mais fotorrealistas. É útil, mas tem suas falhas

Ainda há muito a descobrir com o Invoke AI. A ferramenta permite que o senhor retrabalhe partes de uma imagem, produza iterações, refine imagens e crie fluxos de trabalho. Não é necessário um hardware excessivo para executá-la, a versão para Windows será executada em qualquer GPU Nvidia da série 10xx ou posterior, embora o usuário possa esperar que as coisas fiquem um pouco mais lentas ao gerar imagens. Embora existam sentimentos contraditórios em relação ao treinamento de modelos de IA e ao consumo de energia necessário, a execução de IA localmente em seu próprio hardware é uma ótima maneira de produzir imagens livres de royalties para uma série de finalidades.