O Google disponibilizou o Veo – seu modelo de inteligência artificial (IA) capaz de gerar vídeos – numa prévia limitada por meio da plataforma Vertex AI, também da big tech. Assim, a “IA de vídeo” do Google chega ao público antes da Sora, concorrente anunciada (mas, até a publicação desta nota, não lançada) pela OpenAI.
O Google apresentou o Veo em maio de 2024, três meses após a OpenAI, desenvolvedora do ChatGPT, anunciar a Sora. Ou seja, apesar de ser anunciado depois, o Veo chegou antes ao público – por mais que, a princípio, de maneira bem limitada.
Veo: IA do Google gera vídeos curtos de ‘alta qualidade’, diz a empresa
O Veo é capaz de gerar vídeos de “alta qualidade” em resolução 1080p e em diversos estilos visuais e cinematográficos a partir de prompts baseados em texto ou imagem (você pode conferir exemplos clicando aqui, aqui e aqui).
Quando anunciado pela primeira vez, os clipes gerados poderiam durar “mais de um minuto“. Mas o Google não especifica restrições de comprimento para a prévia lançada agora.
Além disso, os novos clipes de exemplo colocados no anúncio do Google estão no mesmo nível de qualidade do que já tinha sido demonstrado pela empresa.
Outra novidade é que a versão mais recente do gerador de imagens a partir de texto do Google, o Imagen 3, estará disponível para todos os clientes do Google Cloud via Vertex “a partir da próxima semana“. Isso expande o lançamento inicial da ferramenta, realizado em agosto na Google AI Test Kitchen, nos EUA.
Usuários na lista de permissões do Google também terão acesso a novos recursos, como edição de fotos com base em prompt. E a capacidade de “infundir sua própria marca, estilo, logotipo, assunto ou recursos do produto” nas imagens geradas.
Salvaguardas no geradores de imagens com IA do Google
O Google afirma que o Veo e o Imagen 3 possuem salvaguardas integradas para impedir a geração de conteúdo prejudicial ou a violação de direitos autorais. No caso do segundo, o The Verge apontou que não é difícil contorná-lo.
Além disso, tudo o que é produzido pelo Veo e pelo Imagen 3 tem a tecnologia SynthID da DeepMind embutida. É uma espécie de marca d’água digital invisível capaz de “diminuir preocupações com desinformação e atribuição incorreta“, diz o Google.
Olhar Digital