Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nuove ricerche da Meta e collaboratori.
Questo è un buon documento che mostra cosa è possibile fare con modelli del mondo adeguati.
I modelli del mondo hanno bisogno di azioni per prevedere le conseguenze. L'approccio predefinito oggi richiede dati di azione etichettati, che sono costosi da ottenere e limitati a domini ristretti come i videogiochi o la manipolazione robotica.
Ma la stragrande maggioranza dei dati video online non ha affatto etichette di azione.
Questa nuova ricerca affronta l'apprendimento di modelli del mondo di azione latente direttamente da video in natura, espandendosi oltre le impostazioni controllate dei lavori precedenti per catturare la piena diversità delle azioni del mondo reale.
La sfida è significativa. I video in natura contengono azioni ben oltre la semplice navigazione o manipolazione: persone che entrano nei fotogrammi, oggetti che appaiono e scompaiono, ballerini che si muovono, dita che formano accordi di chitarra. Non c'è nemmeno un'incarnazione coerente tra i video, a differenza dei dataset robotici, dove lo stesso braccio appare in tutto.
Quindi come affrontano questo problema gli autori?
Azioni latenti continue ma vincolate, utilizzando regolarizzazione scarsa o rumorosa, catturano efficacemente questa complessità dell'azione. La quantizzazione discreta, l'approccio comune nei lavori precedenti, fatica ad adattarsi. Senza un'incarnazione condivisa, il modello apprende trasformazioni spazialmente localizzate e relative alla telecamera.
I risultati dimostrano un genuino trasferimento di azione.
Il movimento di una persona che cammina può essere applicato a una palla che vola. Azioni come "qualcuno che entra nel fotogramma" si trasferiscono attraverso video completamente diversi.
Addestrando un piccolo controllore per mappare azioni note a quelle latenti, il modello del mondo addestrato puramente su video naturali può risolvere compiti di manipolazione e navigazione robotica con prestazioni vicine a modelli addestrati su dati etichettati per azioni specifiche del dominio.
Gli spazi di azione latente appresi da video internet non etichettati possono servire come interfaccia universale per la pianificazione, rimuovendo il collo di bottiglia dell'annotazione delle azioni.
Documento:
Impara a costruire agenti AI efficaci nella nostra accademia:

Principali
Ranking
Preferiti
