A maioria das pessoas compra laptops poderosos para jogos, bem, para jogar. Alguns os compram para jogar e fluxo jogos. Mas agora há um motivo totalmente novo para comprar um PC poderoso: para criar sua própria arte de IA, diretamente em seu próprio PC.
A arte da IA é fascinante. Digite um prompt e o algoritmo gerará uma imagem de acordo com suas especificações. Geralmente, tudo isso acontece na Web, com algoritmos como DALL-E, Craiyon, Latitude Voyage, Midjourney e muito mais. Mas toda essa computação em nuvem tem um preço: ou sua solicitação fica em uma fila ou você recebe apenas um certo número de solicitações. Midjourney, um excelente algoritmo de arte de IA, custa US$ 10 por mês para 200 imagens, por exemplo.
A geração de receita com a arte da IA foi uma das razões pelas quais os modelos algorítmicos não foram divulgados ao público. (Outra é que seus criadores temiam que pudessem ser usados para desinformação, imagens violentas ou representações difamatórias de celebridades.) Stability.Ai e seu modelo Stable Diffusion quebraram esse molde esta semana, com um modelo que foi disponibilizado publicamente e pode ser executado em GPUs de consumo.
A difusão estável também está disponível por meio de um serviço baseado em crédito, DreamStudio, bem como uma demonstração pública separada no HuggingFace, o lar de muitos projetos de código de IA. No entanto, você também pode baixar o modelo em si, para geração de arte ilimitada diretamente no seu próprio PC. No entanto, é preciso algum trabalho; você precisará se inscrever para um nome de usuário e senha gratuitos no HuggingFace, que só então lhe dará acesso ao próprio código Stable Diffusion.
A Stability.Ai lançou o modelo sob a licença CreativeML OpenRAIL-M, listada no arquivo Leiame que acompanha o código. Essencialmente, ele afirma que você concorda que as imagens não serão fotorrealistas e que concorda em compartilhar seu login do HuggingFace com os criadores do modelo. Você também concorda em não criar ambientes hostis ou alienantes para as pessoas, criando imagens que usem violência ou sangue, e assim por diante. O modelo inclui um filtro de conteúdo, que já foi contornado com várias bifurcações do código.
Para instalar o Stable Diffusion, recomendamos seguir o tutorial do AssemblyAI para instalar o código Stable Diffusion “real” ou instruções separadas para instalar uma bifurcação do código que foi otimizado para usar menos VRAM às custas de tempos de inferência mais longos. (Observe que o último código é um fork de terceiros, portanto, teoricamente, há algum risco na instalação de código desconhecido em seu PC.)
De qualquer forma, você precisará baixar o próprio modelo (cerca de 4 GB) e alguns arquivos de suporte. Você também precisará instalar um aplicativo Python de terceiros ou usar o Windows Subsystem for Linux, que ganhou recursos de computação de GPU em 2020. Essencialmente, a instalação requer a cópia de algumas instruções do Linux e o ajuste de alguns nomes de arquivos.
Por enquanto, Stability.Ai recomenda que você tenha uma GPU com pelo menos 6,9 GB de RAM de vídeo. Infelizmente, apenas as GPUs Nvidia são suportadas atualmente, embora o suporte para GPUs AMD seja adicionado no futuro, diz a empresa.
Não é bonito, mas funciona
Parece bastante claro que, eventualmente, tudo isso será empacotado em um aplicativo orientado por GUI, seja para Linux ou em um aplicativo Windows ou pelo menos em um front-end do Windows. Mas, por enquanto, os prompts são inseridos por meio da interface de linha de comando do Linux. Isso não é tão traumático quanto parece, pois você pode simplesmente inserir todo o código uma vez e tocar no botão Seta para cima para derrubar a entrada anterior.
Os prompts serão, portanto, parecidos com isto:
python scripts/txt2img.py --prompt "a wizard's tower rises from the desert, evening, artistic, detailed, fantasy aesthetic"
Você também pode adicionar modificadores como o tamanho da imagem resultante, quantas iterações o algoritmo usará para gerá-la e assim por diante, usando as instruções do tutorial.
Prepare-se para o seu laptop levar uma surra
Cuidado, no entanto: é neste ponto que o Stable Diffusion pode começar a afetar seu PC. Criar mais imagens, criar imagens de alta resolução e mais iterações requerem poder de processamento adicional. O algoritmo parece colocar mais carga na memória do sistema, SSD e, especialmente, na GPU e na RAM de vídeo.
Tentei carregar Stable Diffusion em um Surface Laptop Studio (H35 Core i7-11370H, 16 GB de RAM, GeForce RTX 3050 Ti com 4 GB de GDDR6 VRAM) e não surpreendentemente encontrei erros de “falta de VRAM”. Executá-lo em um laptop para jogos separado com um Core i7-11800H, 16 GB de RAM e uma GPU de laptop RTX 3060 com 6 GB de VRAM GDDR6 funcionou, no entanto, com o fork de código otimizado para VRAM menor. (Eu não tinha um PC de mesa disponível para testar.)
Mesmo assim, gerar uma série de 5 imagens (o padrão) exigia cerca de dez minutos cada, na resolução 512×512, com 50 iterações. Por outro lado, o DreamStudio, o mesmo algoritmo hospedado na nuvem, foi concluído em cerca de dois segundos – embora, é claro, você receba apenas uma quantidade não revelada de créditos para gerar imagens.
Dos algoritmos de IA que experimentei, ainda considero Midjourney e Latitude Vantage os melhores geradores de arte de IA que experimentei – não era este impressionado com meus resultados de difusão estável. Ainda assim, muita arte de IA depende de “promptcraft”: digitar os comandos certos para gerar algo realmente legal. O que é ótimo em Stable Diffusion, no entanto, é que, se você possui um PC poderoso, pode levar todo o tempo que quiser para ajustar sua arte algorítmica e criar algo realmente impressionante.
Link do Autor