Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Mi artículo favorito de este año: "Los modelos de vídeo son aprendices y razonadores de cero disparos" Ilustra que los modelos de vídeo muestran razonamiento visual emergente a gran escala: pueden resolver tareas visuales para las que no fueron entrenados. Este puede ser el "momento GPT" para la visión. Vamos a desglosarlo 👇

Para empezar, ¿por qué creer que los modelos de vídeo podrían desarrollar razonamiento visual? Algo similar ocurrió por mensaje. Antes entrenábamos modelos específicos para cada tarea, pero ahora los LLMs tienen un conocimiento general del lenguaje y pueden abordar muchas tareas para las que no estaban entrenados explícitamente. Es posible que los modelos de vídeo hagan lo mismo a gran escala.

Este artículo midió 18k+ vídeos generados por Veo 3 tanto en tareas cualitativas como cuantitativas. Descubrió que Veo puede percibir, modificar y manipular el mundo visual (partiendo de prompts de imagen + texto), mostrando habilidades tempranas de razonamiento para las que no fue entrenado explícitamente. Abordaremos cada categoría una por una.

👀 Percepción: cuando se le solicita, Veo puede detectar bordes e identificar objetos distintos en una escena. Esto significa que puede funcionar como un modelo de segmentación a pesar de no estar entrenado en esa tarea, lo que tiene algunas implicaciones interesantes a largo plazo. 1) "Añadir un punto azul brillante en la punta de la rama donde está sentado el guacayo. El ojo del guacamayo se vuelve rojo intenso. Todo lo demás se vuelve completamente negro." 2) "La bola azul empieza a brillar al instante. Perspectiva estática de cámara."

🌐 Modelado - Veo puede modelar el mundo (y los principios que lo rigen) basándose en esta percepción. Demuestra un sólido dominio de la física: cosas como la resistencia del aire y la flotabilidad, fenómenos ópticos como la refracción y la reflexión, y la mezcla de colores. 1) "La mano suelta el objeto" 2) "Una enorme esfera metálica pulida como espejo rueda por la sala"

🤏 Manipulación - Veo puede manipular el mundo visual basándose en esta percepción y modelado. Esto permite tareas de edición de imágenes sin tomas: piensa en cosas como composición de escenas, eliminación de fondos, transferencia de estilo o incluso manipulación hábil. 1) "Usa el sentido común y haz que las dos manos robóticas que están unidas a los brazos abran el tarro, como haría un humano." 2) "Convierte este selfie en una foto profesional para LinkedIn."

🤔 Razonamiento visual: todas las habilidades anteriores dan lugar a razonamiento. Esto se mide presentando al modelo desafíos basados en la visión que requieren razonamiento paso a paso. Piensa en hacer analogías, resolver laberintos o puzles, usar herramientas o recorrer un gráfico. 1) "Sin cruzar ningún límite negro, el ratón gris de la esquina navega hábilmente por el laberinto caminando hasta encontrar el queso amarillo." 2) "Modificar la cuadrícula inferior derecha para ajustarse a la regla establecida por las demás cuadrículas. Puedes llenar celdas, limpiar celdas o cambiar el color de una célula."

Aquí va la gran noticia: el razonamiento visual está mejorando con el tiempo. El rendimiento en muchas de estas tareas aumentó significativamente entre Veo 2 y Veo 3. He incluido algunos ejemplos a continuación. Resumen; DR - "Si estás esperando una física precisa en los modelos de vídeo, mantente en la cola" 😂

267

Populares

Ranking

Favoritas