A OpenAI lançou, nesta quinta-feira, 15, uma inteligência artificial (IA) generativa para transformar comandos escritos em vídeos. Batizada de Sora – que significa céu, em japonês – a IA consegue criar vídeos de até um minuto, simulando diferentes efeitos de captação, como câmera lenta, por exemplo.
A IA, que deve ser integrada de forma semelhante ao DALL-E dentro do ChatGPT, funciona a partir de comandos escritos. De acordo com a empresa, a Sora pode entender pedidos com lugares, características, ângulos de filmagem e até lentes específicas em que a "gravação" deve ser feita. Também podem ser gerados vídeos de até 1080p de qualidade.
"Estamos ensinando a IA a entender e simular o mundo físico em movimento, com o objetivo de treinar modelos que ajudem as pessoas a resolver problemas que exijam interação no mundo real", explicou a OpenAI no site.
Em um dos vídeos publicados pela empresa, é possível ver um homem idoso, sentado em um café em uma imagem bastante aproximada de seu rosto. O vídeo usa imagens realistas – ou seja, sem efeitos de desenho animado, por exemplo – e dura 20 segundos. Em outro, uma mulher anda por uma rua cheia de luzes, com direito a um movimento de câmera que a acompanha enquanto ela "desfila".
<i>Comando: Um close-up extremo de um homem de cabelos grisalhos e barba na casa dos 60 anos, ele está pensando profundamente sobre a história do universo enquanto está sentado em um café em Paris, seus olhos focam nas pessoas fora da tela enquanto elas caminham e ele fica sentado quase imóvel, ele está vestido com um paletó de lã e uma camisa de botões, Ele usa boina marrom e óculos e tem uma aparência muito professoral. No final, ele oferece um sorriso sutil de boca fechada, como se tivesse encontrado a resposta para o mistério da vida. A iluminação é muito cinematográfica, com a luz dourada e as ruas e a cidade de Paris ao fundo, profundidade de campo, filme cinematográfico de 35 mm.</i>
<i>Comando: Uma mulher elegante caminha por uma rua de Tóquio repleta de luzes de neon brilhantes e letreiros animados da cidade. Ela usa uma jaqueta de couro preta, um vestido longo vermelho e botas pretas, e carrega uma bolsa preta. Usa óculos escuros e batom vermelho. Ela caminha com confiança e casualidade. A rua é úmida e reflexiva, criando um efeito de espelho das luzes coloridas. Muitos pedestres andam por ali.</i>
Mesmo realista, a primeira versão da Sora conta com alguns erros, admitidos pela própria empresa. Em alguns casos, ela pode confundir comandos direcionais como esquerda e direita, além de poder "esquecer" ações já realizadas anteriormente no vídeo.
"O modelo atual tem pontos fracos. Ele pode ter dificuldades para simular com precisão a física de uma cena complexa e pode não compreender instâncias específicas de causa e efeito. Por exemplo, uma pessoa pode dar uma mordida em um biscoito, mas, depois disso, o biscoito pode não ter uma marca de mordida".
Por enquanto, a ferramenta será disponibilizada apenas para especialistas em cibersegurança e para artistas visuais, cineastas e designers. A ideia é receber o feedback de profissionais que trabalham com edição e captação de vídeo, ao mesmo tempo em que identifica erros e possíveis usos problemáticos da ferramenta.
A empresa não afirmou quando a IA deve chegar aos demais usuários e se será uma ferramenta exclusiva para assinantes do ChatGPT.