Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nova pesquisa da Meta e colaboradores.
Este é um bom artigo mostrando o que é possível com modelos mundiais adequados.
Modelos mundiais precisam de ações para prever consequências. A abordagem padrão hoje exige dados de ação rotulados, que são caros de obter e limitados a domínios restritos como videogames ou manipulação robótica.
Mas a grande maioria dos dados de vídeo online não tem nenhum rótulo de ação.
Esta nova pesquisa aborda o aprendizado de modelos de mundos de ação latentes diretamente a partir de vídeos na natureza, expandindo além dos ambientes controlados de trabalhos anteriores para capturar toda a diversidade de ações do mundo real.
O desafio é significativo. Vídeos in-the-wild contêm ações muito além da simples navegação ou manipulação: pessoas entrando nos quadros, objetos aparecendo e desaparecendo, dançarinos se movendo, dedos formando acordes de guitarra. Também não há uma incorporação consistente entre vídeos, diferente dos conjuntos de dados de robótica, onde o mesmo braço aparece em todo o vídeo.
Então, como os autores abordam isso?
Ações latentes contínuas, porém restritas, usando regularização esparsa ou ruidosa, capturam efetivamente essa complexidade de ação. A quantização discreta, a abordagem comum em trabalhos anteriores, tem dificuldades para se adaptar. Sem uma incorporação compartilhada, o modelo aprende transformações espacialmente localizadas, relativas à câmera.
Os resultados demonstram uma transferência genuína de ação.
O movimento de uma pessoa andando pode ser aplicado a uma bola voadora. Ações como "alguém entrando no quadro" são transferidas entre vídeos completamente diferentes.
Ao treinar um pequeno controlador para mapear ações conhecidas para latentes, o modelo mundial treinado puramente em vídeos naturais pode resolver tarefas de manipulação robótica e navegação com desempenho próximo ao de modelos treinados em dados específicos de domínio e rotulados por ação.
Espaços de ação latentes aprendidos a partir de vídeos da internet sem rótulo podem servir como uma interface universal para planejamento, removendo o gargalo da anotação de ações.
Papel:
Aprenda a construir agentes de IA eficazes em nossa academia:

Melhores
Classificação
Favoritos
