Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Meu artigo favorito deste ano: "Modelos de vídeo são aprendizes e raciocínios zero-shot"
Ele ilustra que modelos de vídeo mostram raciocínio visual emergente em escala – eles podem resolver tarefas de visão para as quais não foram treinados.
Este pode ser o "momento GPT" para a visão. Vamos analisar 👇
Para começar - por que acreditar que modelos de vídeo podem desenvolver raciocínio visual?
Algo parecido aconteceu por mensagem. Costumávamos treinar modelos específicos para cada tarefa – mas agora, LLMs têm entendimento geral de linguagem e conseguem lidar com muitas tarefas para as quais não foram treinados explicitamente.
É possível que modelos de vídeo façam o mesmo em escala.

Este artigo mediu 18k+ vídeos gerados pelo Veo 3 em tarefas qualitativas e quantitativas.
Descobriu que Veo pode perceber, modificar e manipular o mundo visual (começando por prompts de imagem + texto) – mostrando habilidades iniciais de raciocínio para as quais não foi explicitamente treinado.
Vamos abordar cada categoria uma por uma.

👀 Percepção - quando solicitado, Veo pode detectar bordas e identificar objetos distintos em uma cena.
Isso significa que pode funcionar como um modelo de segmentação apesar de não ter sido treinado nessa tarefa, o que tem algumas implicações interessantes a jusante.
1) "Adicione um ponto azul brilhante na ponta do galho onde a arara está sentada. O olho da arara fica vermelho vivo. Todo o resto fica completamente escuro."
2) "A bola azul começa a brilhar instantaneamente. Perspectiva estática da câmera."
🌐 Modelagem - Veo pode modelar o mundo (e os princípios que o governam) com base nessa percepção.
Demonstra um forte domínio da física – coisas como resistência do ar e flutuabilidade, fenômenos ópticos como refração e reflexão, e mistura de cores.
1) "A mão solta o objeto"
2) "Uma enorme esfera metálica de polimento de espelhos rola pela sala"
🤏 Manipulação - Veo pode manipular o mundo visual com base nessa percepção e modelagem.
Isso permite tarefas de edição de imagem sem tomada – pense em coisas como composição de cena, remoção de fundo, transferência de estilo ou até manipulação habilidosa.
1) "Use o bom senso e faça com que as duas mãos robóticas presas aos braços abram o pote, como um humano faria."
2) "Transforme esta selfie em uma foto profissional para o LinkedIn."
🤔 Raciocínio visual – todas as habilidades acima resultam em raciocínio.
Isso é medido apresentando ao modelo desafios baseados em visão que exigem raciocínio passo a passo.
Pense em fazer analogias, resolver labirintos ou quebra-cabeças, usar ferramentas ou percorrer um gráfico.
1) "Sem cruzar nenhum limite preto, o rato cinza do canto navega habilmente pelo labirinto andando até encontrar o queijo amarelo."
2) "Modificar a grade inferior direita para seguir a regra estabelecida pelas outras grades. Você pode preencher células, limpar células ou mudar a cor de uma célula."
Aqui está a ótima notícia: o raciocínio visual está melhorando com o tempo.
O desempenho em muitas dessas tarefas aumentou significativamente entre o Veo 2 e o Veo 3. Incluí alguns exemplos abaixo.
Resumo; DR - "Se você está esperando física precisa nos modelos de vídeo, mantenha-se na fila" 😂

267
Melhores
Classificação
Favoritos
