Meu artigo favorito deste ano: "Modelos de vídeo são aprendizes e raciocínios zero-shot" Ele ilustra que modelos de vídeo mostram raciocínio visual emergente em escala – eles podem resolver tarefas de visão para as quais não foram treinados. Este pode ser o "momento GPT" para a visão. Vamos analisar 👇
Para começar - por que acreditar que modelos de vídeo podem desenvolver raciocínio visual? Algo parecido aconteceu por mensagem. Costumávamos treinar modelos específicos para cada tarefa – mas agora, LLMs têm entendimento geral de linguagem e conseguem lidar com muitas tarefas para as quais não foram treinados explicitamente. É possível que modelos de vídeo façam o mesmo em escala.
Este artigo mediu 18k+ vídeos gerados pelo Veo 3 em tarefas qualitativas e quantitativas. Descobriu que Veo pode perceber, modificar e manipular o mundo visual (começando por prompts de imagem + texto) – mostrando habilidades iniciais de raciocínio para as quais não foi explicitamente treinado. Vamos abordar cada categoria uma por uma.
👀 Percepção - quando solicitado, Veo pode detectar bordas e identificar objetos distintos em uma cena. Isso significa que pode funcionar como um modelo de segmentação apesar de não ter sido treinado nessa tarefa, o que tem algumas implicações interessantes a jusante. 1) "Adicione um ponto azul brilhante na ponta do galho onde a arara está sentada. O olho da arara fica vermelho vivo. Todo o resto fica completamente escuro." 2) "A bola azul começa a brilhar instantaneamente. Perspectiva estática da câmera."
🌐 Modelagem - Veo pode modelar o mundo (e os princípios que o governam) com base nessa percepção. Demonstra um forte domínio da física – coisas como resistência do ar e flutuabilidade, fenômenos ópticos como refração e reflexão, e mistura de cores. 1) "A mão solta o objeto" 2) "Uma enorme esfera metálica de polimento de espelhos rola pela sala"
🤏 Manipulação - Veo pode manipular o mundo visual com base nessa percepção e modelagem. Isso permite tarefas de edição de imagem sem tomada – pense em coisas como composição de cena, remoção de fundo, transferência de estilo ou até manipulação habilidosa. 1) "Use o bom senso e faça com que as duas mãos robóticas presas aos braços abram o pote, como um humano faria." 2) "Transforme esta selfie em uma foto profissional para o LinkedIn."
🤔 Raciocínio visual – todas as habilidades acima resultam em raciocínio. Isso é medido apresentando ao modelo desafios baseados em visão que exigem raciocínio passo a passo. Pense em fazer analogias, resolver labirintos ou quebra-cabeças, usar ferramentas ou percorrer um gráfico. 1) "Sem cruzar nenhum limite preto, o rato cinza do canto navega habilmente pelo labirinto andando até encontrar o queijo amarelo." 2) "Modificar a grade inferior direita para seguir a regra estabelecida pelas outras grades. Você pode preencher células, limpar células ou mudar a cor de uma célula."
Aqui está a ótima notícia: o raciocínio visual está melhorando com o tempo. O desempenho em muitas dessas tarefas aumentou significativamente entre o Veo 2 e o Veo 3. Incluí alguns exemplos abaixo. Resumo; DR - "Se você está esperando física precisa nos modelos de vídeo, mantenha-se na fila" 😂
267