Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nieuw onderzoek van Meta en samenwerkingspartners.
Dit is een goed artikel dat laat zien wat mogelijk is met goede wereldmodellen.
Wereldmodellen hebben acties nodig om gevolgen te voorspellen. De standaardaanpak van vandaag vereist gelabelde actiedata, wat duur is om te verkrijgen en beperkt is tot smalle domeinen zoals videogames of robotmanipulatie.
Maar de overgrote meerderheid van de videodata online heeft helemaal geen actielabels.
Dit nieuwe onderzoek pakt het leren van latente actie wereldmodellen direct uit in-the-wild video's aan, en breidt zich uit voorbij de gecontroleerde instellingen van eerder werk om de volledige diversiteit van echte wereldacties vast te leggen.
De uitdaging is aanzienlijk. In-the-wild video's bevatten acties die veel verder gaan dan eenvoudige navigatie of manipulatie: mensen die in beeld komen, objecten die verschijnen en verdwijnen, dansers die bewegen, vingers die gitaarakkoorden vormen. Er is ook geen consistente belichaming over video's heen, in tegenstelling tot robotica datasets, waar dezelfde arm gedurende de tijd verschijnt.
Dus hoe pakken de auteurs dit aan?
Continue maar beperkte latente acties, met behulp van spaarzame of ruisachtige regularisatie, vangen effectief deze actiecomplexiteit. Discrete kwantisatie, de gebruikelijke aanpak in eerder werk, heeft moeite om zich aan te passen. Zonder een gedeelde belichaming leert het model ruimtelijk gelokaliseerde, camera-relatieve transformaties.
De resultaten tonen echte actieoverdracht aan.
Beweging van een wandelend persoon kan worden toegepast op een vliegende bal. Acties zoals "iemand die het beeld binnenkomt" worden overgedragen tussen volledig verschillende video's.
Door een kleine controller te trainen om bekende acties aan latente acties te koppelen, kan het wereldmodel dat puur op natuurlijke video's is getraind, robotmanipulatie- en navigatietaken oplossen met prestaties die dicht bij modellen liggen die zijn getraind op domeinspecifieke, actiegelabelde data.
Latente actieruimtes geleerd van niet-gelabelde internetvideo's kunnen dienen als een universele interface voor planning, waardoor de bottleneck van actieannotatie wordt verwijderd.
Artikel:
Leer effectieve AI-agenten te bouwen in onze academie:

Boven
Positie
Favorieten
