Stable Diffusion 3 chega para solidificar a liderança inicial em imagens de IA contra Sora e Gemini

A estabilidade anunciou Difusão Estável 3, a versão mais recente e poderosa do modelo de IA de geração de imagens da empresa. Embora os detalhes sejam escassos, é claramente uma tentativa de afastar o entusiasmo em torno dos concorrentes recentemente anunciados da OpenAI e do Google.

Teremos uma análise mais técnica de tudo isso em breve, mas por enquanto você deve saber que Stable Diffusion 3 é baseado em uma nova arquitetura e funcionará em uma variedade de hardware (embora você ainda precise de algo robusto). Ainda não saiu, mas você pode se inscrever na lista de espera aqui.

SD3 usa um atualizado “transformada de difusão”, uma técnica pioneira em 2022, mas revisada em 2023 e atingindo agora escalabilidade. Sora, o impressionante gerador de vídeo da OpenAI, aparentemente funciona com princípios semelhantes (Will Peebles, coautor do artigo, passou a co-liderar o projeto Sora). Ele também emprega “correspondência de fluxo”, outra nova técnica que melhora a qualidade de forma semelhante, sem adicionar muita sobrecarga.

O conjunto de modelos varia de 800 milhões de parâmetros (menos que o SD 1.5 comumente usado) a 8 bilhões de parâmetros (mais que SD XL), com a intenção de funcionar em uma variedade de hardware. Você provavelmente ainda desejará uma GPU séria e uma configuração destinada ao trabalho de aprendizado de máquina, mas não está limitado a uma API como geralmente acontece com os modelos OpenAI e Google. (A Anthropic, por sua vez, não se concentrou publicamente na geração de imagens ou vídeos, portanto não faz parte desta conversa.)

No Twitter, o chefe da Stable Diffusion, Emad Mostaque, observa que o novo modelo é capaz de compreensão multimodal, bem como entrada e geração de vídeo, todas as coisas que seus rivais enfatizaram em seus concorrentes orientados por API. Esses recursos ainda são teóricos, mas parece que não há barreira técnica para que sejam incluídos em versões futuras.

É impossível comparar esses modelos, é claro, já que nenhum foi realmente lançado e tudo o que temos para prosseguir são afirmações concorrentes e exemplos escolhidos a dedo. Mas a Difusão Estável tem uma vantagem definitiva: a sua presença no zeitgeist como o modelo ideal para fazer qualquer tipo de geração de imagem em qualquer lugar, com poucas limitações intrínsecas de método ou conteúdo. (Na verdade, o SD3 quase certamente inaugurará uma nova era de pornografia gerada por IA, assim que ultrapassar os mecanismos de segurança.)

A Difusão Estável parece querer ser a IA generativa de marca branca da qual você não pode prescindir, em vez da IA ​​generativa boutique que você não tem certeza se precisa. Para esse fim, a empresa também está atualizando suas ferramentas, para diminuir o nível de uso, embora, como acontece com o restante do anúncio, essas melhorias sejam deixadas à imaginação.

Curiosamente, a empresa colocou a segurança em primeiro plano em seu anúncio, afirmando:

Tomamos e continuamos a tomar medidas razoáveis ​​para evitar o uso indevido do Stable Diffusion 3 por malfeitores. A segurança começa quando começamos a treinar nosso modelo e continua durante os testes, avaliação e implantação. Na preparação para esta prévia, introduzimos diversas salvaguardas. Ao colaborar continuamente com pesquisadores, especialistas e nossa comunidade, esperamos inovar ainda mais com integridade à medida que nos aproximamos do lançamento público do modelo.

Quais são exatamente essas salvaguardas? Sem dúvida, a prévia irá delineá-los um pouco, e então o lançamento público será ainda mais refinado ou censurado, dependendo da sua perspectiva sobre essas coisas. Saberemos mais em breve e, enquanto isso, mergulharemos no lado técnico das coisas para entender melhor a teoria e os métodos por trás desta nova geração de modelos.


Link do Autor
Total
0
Shares
0 Share
0 Tweet
0 Share
0 Share
0 Pin it
Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Related Posts