
Ryan Haines / Autoridade Android
Se você comprar um telefone da série Pixel 10 Pro, ou mesmo o Pixel 9 Pro do ano passado, você recebe um ano inteiro da assinatura Gemini Pro do Google. Este serviço de US $ 20 por mês desbloqueia o poderoso modelo Gemini 2.5 Pro e um conjunto de ferramentas de IA de ponta. Até muito recentemente, a jóia da coroa deste pacote era o VEO 3, o impressionante gerador de texto para vídeo do Google que poderia transformar qualquer descrição em um vídeo curto hiper-realista.
Mas o mundo da IA se move à velocidade da luz. Na semana passada, o Openai anunciou seu modelo SORA 2 concorrente, o que significa que o gerador de vídeo do Google não é mais o único jogo na cidade. Enquanto o SORA 2 é apenas para convidados por enquanto, o modelo já possui uma base de usuários ativa. Então, naturalmente, peguei o Sora 2 do Openai para um spin vs veo 3 do Google para descobrir qual gerador de vídeo da IA tem vantagem.
Google VEO 3 vs Openai sora: os resultados são surpreendentes
Vamos começar com um prompt simples sem caracteres ou detalhes complexos que possam tropeçar em qualquer um dos geradores de vídeo da IA: “Uma foto fotorrealista de café sendo derramada em um copo branco em câmera lenta”. Dada a natureza estática dessa foto, você esperaria que todos os modelos pregassem a tarefa. No entanto, os resultados foram surpreendentemente diferentes.
A tentativa do modelo de Sora de primeira geração foi aceitável de relance. Entendeu os objetos – copo, líquido, máquina – e os montou na ordem correta. Mas a ilusão rapidamente desmoronou. O “café expresso” tinha uma consistência espessa e gloopy e espirrou no copo com física não natural. Era um vídeo das palavras no prompt, mas não tinha nenhum senso de arte ou realismo.
A geração do Veo 3, por outro lado, parecia ter sido capturado por um cinegrafista profissional. O café expresso fluiu com viscosidade convincente, e o líquido girou realisticamente enquanto se estabeleceu. Não é um resultado perfeito, pois o café apenas dispensado de um lado do Portafilter, mas ainda uma melhoria significativa em relação à tentativa de Sora.
O Sora 2 é o mais novo e o melhor do grupo – mostra a física realista sem nenhum dos erros exibidos no resultado do VEO 3. Mas é uma grande melhoria? Na verdade. Mas, felizmente, para o Openai, estamos apenas começando.
E os animais? O modelo de Sora de primeira geração realmente fez um trabalho aceitável de capturar a energia frenética de um Golden Retriever em um parque lotado. O VEO 3 fez um trabalho um pouco melhor, mas o mar aleatório de personagens de fundo era um sinal claro da presença da IA.
Sora 2 é onde as coisas se tornam perturbadoras reais. Tornou o Golden Retriever com extrema precisão e toda a cena era crível. As pessoas no parque não estavam embaçadas nem artificiais. Meu único nitpick seria que a cena tinha muitos outros cães para um parque urbano comum.
Seguindo em frente, pedi um motociclista andando pela praia ao pôr do sol. Mais uma vez, o modelo SORA original me deu um resultado limítrofe de desenho animado, onde uma motocicleta peixes, enquanto outra desliza na água com resistência zero. Eu não chamaria esse resultado aceitável. Surpreendentemente, Sora 2 também falhou inesperadamente nessa tarefa, cometendo os mesmos erros que seu antecessor.
Veo 3, por outro lado, deu um tiro que parecia absolutamente cinematográfico. A motocicleta moveu -se previsivelmente na areia, deixada para trás uma marca de piso e trilha de poeira, e a bicicleta se inclinou sutilmente quando o motociclista girava. Mas a iluminação era a parte mais impressionante; O sol baixo lançou sombras longas e dramáticas e brilhava realisticamente fora da motocicleta.
Meu próximo prompt provou ser um desafio difícil para os modelos mais antigos: “icônico táxi amarelo dirigindo pelas ruas de Calcutá durante um dia brilhante”. Sora e Veo 3 não conseguiram gerar clipes utilizáveis, mas seus fracassos foram interessantes, no entanto.
A versão de Sora quebrou as regras da realidade. Lutou com a permanência do objeto, fazendo com que os pedestres surgissem na calçada ou, em um momento chocante, se fundem brevemente. Escusado será dizer que essa sequência onírica não se assemelha à realidade.
A tentativa do Veo 3 foi mais coerente, mas falhou na execução de detalhes. Ele fez um trabalho muito melhor ao capturar a atmosfera autêntica de Calcutá, mas o próprio táxi se moveu com um movimento estranho e deslizante que não parecia conectado à estrada. Além disso, como é comum com a IA, qualquer texto foi renderizado ilegível. O modelo Sora 2 mais recente teve um desempenho muito melhor, pregando a atmosfera da cidade e até os ocupantes do veículo. Você pode facilmente passá -lo como um vídeo real.
Finalmente, vamos dar uma olhada no que eu acho que é o resultado mais impressionante até o modelo do Google: o Mandalorian em Bangcoc. Surpreendentemente, nem Sora nem Veo 3 recusaram meu prompt por motivos de direitos autorais.
De qualquer maneira, o resultado do VEO 3 foi impressionante. O personagem que produzia era uma imagem dividida do negócio real, desde o brilho específico da armadura até a silhueta icônica do capacete. Parecia menos uma geração de IA e mais como uma cena excluída do show.
Sora, por outro lado, entregou uma aproximação fechada na melhor das hipóteses. Gerou um caractere genérico vestido em cromo brilhante e polido com luzes de neon refletindo sua superfície. Ele capturou a parte de Bangkok do prompt, mas falhou no assunto principal. De certa forma, Sora evitou a violação de direitos autorais, mas também não conseguiu seguir minhas instruções com precisão.
Infelizmente, o modelo SORA 2 mais recente agora se recusa a gerar um vídeo contendo um personagem protegido por direitos autorais, mesmo sabendo que é totalmente capaz de fazê -lo, por isso ganha um DNF para este.
A geração de vídeo da IA percorreu um longo caminho

Autoridade Mishaal Rahman / Android
Quando o Openai anunciou Sora no início de 2024, a maioria de nós ficou surpresa com o quão realista e convincente parecia. Essas amostras iniciais apresentaram um toque cinematográfico impressionante e prometeu interromper a produção de vídeo. Na época, o OpenAI também tinha um dos melhores geradores de imagens de IA na forma de Dall · e. Mas quando Sora finalmente se lançou em dezembro de 2024, ficou aquém dessas expectativas elevadas. O Google acompanhou seu modelo VEO apenas alguns dias depois, no entanto, e iterou constantemente com atualizações agressivas que culminaram no Veo 3 que temos hoje.
Infelizmente, o lançamento inicial do gerador de vídeo da IA do Google também não foi tão impecável quanto as demos sugeriram. Mas o Veo 3 e Sora 2 são bestas diferentes.
Os modelos iniciais de VEO e SORA sofriam com os mesmos sinais reveladores de IA generativa: os objetos de fundo mudavam de maneira não natural, os caracteres careciam de permanência de objetos, às vezes se misturando ao meio ambiente ou mesmo se fundindo. A física também mal importava, pois os objetos se moviam de maneiras impossíveis e sem atrito e você teve a sorte de obter qualquer consistência narrativa.
Sora 2, e o VEO 3 do Google, em um pouco menor, abordam quase todas essas falhas. Um único prompt de frase agora pode produzir um vídeo completo, completo com vozes realistas e até música. Isso torna essas ferramentas de geração de vídeo de IA incrivelmente úteis para a criação de conteúdo leve. Os professores podem criar histórias visuais para a classe, os empresários giram anúncios rápidos para as mídias sociais – os casos de uso parecem infinitos.
O único problema é o custo. Com o Gemini Pro, você obtém apenas três vídeos do VEO 3 por dia. No entanto, eu descobri que o Projeto do Google Labs chamado Flow Também concede 1.000 créditos de IA por mês. Isso se traduz em aproximadamente 100 vídeos usando o modelo VEO 3 “Fast”.
O Sora 2, por outro lado, está atualmente livre para usar, mesmo sem uma assinatura do ChatGPT. O CEO da Openai, Sam Altman, admitiu que esse acesso aberto é insustentável, pois o uso já excedeu as expectativas. Um limite diário parece inevitável, mas, para justiça, normalmente tenho um clipe utilizável na primeira tentativa, graças à forte compreensão da física, do movimento e das nuances do mundo real.
O problema é que o Sora 2 ainda não está disponível ao público, e o OpenAI quase certamente colocará um limite rígido para o número de gerações de vídeo quando o serviço for lançado de maneira mais ampla. Então, por enquanto, o VEO 3 continua sendo um dos segredos mais bem guardados da assinatura Gemini Pro do Google.
Obrigado por fazer parte da nossa comunidade. Leia nossa política de comentários antes de postar.
Link do Autor
