Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nueva investigación de Meta y colaboradores.
Este es un buen artículo que muestra lo que es posible con modelos del mundo adecuados.
Los modelos del mundo necesitan acciones para predecir consecuencias. El enfoque predeterminado hoy en día requiere datos de acción etiquetados, que son costosos de obtener y están limitados a dominios estrechos como videojuegos o manipulación robótica.
Pero la gran mayoría de los datos de video en línea no tiene etiquetas de acción en absoluto.
Esta nueva investigación aborda el aprendizaje de modelos del mundo de acción latente directamente de videos en la naturaleza, expandiéndose más allá de los entornos controlados de trabajos anteriores para capturar la plena diversidad de acciones del mundo real.
El desafío es significativo. Los videos en la naturaleza contienen acciones que van mucho más allá de la simple navegación o manipulación: personas entrando en los cuadros, objetos apareciendo y desapareciendo, bailarines moviéndose, dedos formando acordes de guitarra. Además, no hay una encarnación consistente a través de los videos, a diferencia de los conjuntos de datos de robótica, donde el mismo brazo aparece en todo momento.
Entonces, ¿cómo abordan esto los autores?
Acciones latentes continuas pero restringidas, utilizando regularización escasa o ruidosa, capturan efectivamente esta complejidad de acción. La cuantización discreta, el enfoque común en trabajos anteriores, tiene dificultades para adaptarse. Sin una encarnación compartida, el modelo aprende transformaciones localizadas espacialmente y relativas a la cámara.
Los resultados demuestran una transferencia de acción genuina.
El movimiento de una persona caminando puede aplicarse a una pelota voladora. Acciones como "alguien entrando en el cuadro" se transfieren a videos completamente diferentes.
Al entrenar un pequeño controlador para mapear acciones conocidas a acciones latentes, el modelo del mundo entrenado puramente en videos naturales puede resolver tareas de manipulación y navegación robótica con un rendimiento cercano a los modelos entrenados en datos etiquetados de acción específicos de dominio.
Los espacios de acción latente aprendidos de videos de internet no etiquetados pueden servir como una interfaz universal para la planificación, eliminando el cuello de botella de la anotación de acciones.
Artículo:
Aprende a construir agentes de IA efectivos en nuestra academia:

Parte superior
Clasificación
Favoritos
