Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nowe badania przeprowadzone przez Meta i współpracowników.
To dobra praca pokazująca, co jest możliwe dzięki odpowiednim modelom świata.
Modele świata potrzebują działań, aby przewidywać konsekwencje. Domyślne podejście dzisiaj wymaga oznakowanych danych akcji, które są kosztowne do uzyskania i ograniczone do wąskich dziedzin, takich jak gry wideo czy manipulacja robotów.
Jednak zdecydowana większość danych wideo w Internecie nie ma w ogóle etykiet akcji.
Te nowe badania zajmują się uczeniem ukrytych modeli akcji świata bezpośrednio z filmów z życia codziennego, rozszerzając się poza kontrolowane warunki wcześniejszych prac, aby uchwycić pełną różnorodność działań w rzeczywistym świecie.
Wyzwanie jest znaczące. Filmy z życia codziennego zawierają działania znacznie wykraczające poza prostą nawigację czy manipulację: ludzie wchodzący w kadr, obiekty pojawiające się i znikające, tancerze poruszający się, palce formujące akordy gitarowe. Nie ma też spójnego uosobienia w różnych filmach, w przeciwieństwie do zbiorów danych robotyki, gdzie ta sama ręka pojawia się przez cały czas.
Jak autorzy podchodzą do tego problemu?
Ciągłe, ale ograniczone ukryte działania, wykorzystujące rzadką lub hałaśliwą regularyzację, skutecznie uchwycają tę złożoność akcji. Dyskretna kwantyzacja, powszechne podejście w wcześniejszych pracach, ma trudności z adaptacją. Bez wspólnego uosobienia model uczy się lokalizowanych przestrzennie, względnych transformacji kamery.
Wyniki pokazują prawdziwy transfer akcji.
Ruch idącej osoby można zastosować do latającej piłki. Akcje takie jak "ktoś wchodzący w kadr" przenoszą się między zupełnie różnymi filmami.
Trenując małego kontrolera do mapowania znanych akcji na ukryte, model świata wytrenowany wyłącznie na naturalnych filmach może rozwiązywać zadania manipulacji robotów i nawigacji z wydajnością bliską modelom wytrenowanym na danych oznakowanych akcjami specyficznymi dla danej dziedziny.
Ukryte przestrzenie akcji uczone z nieoznakowanych filmów internetowych mogą służyć jako uniwersalny interfejs do planowania, eliminując wąskie gardło związane z oznaczaniem akcji.
Artykuł:
Naucz się budować skuteczne agenty AI w naszej akademii:

Najlepsze
Ranking
Ulubione
