Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jim Fan
Dyrektor ds. robotyki NVIDIA i wybitny naukowiec. Współprowadzący laboratorium GEAR. Rozwiązywanie fizycznego AGI, jeden silnik na raz. Doktorat Stanforda, pierwszy stażysta OpenAI.
Jestem na jedynej misji, aby rozwiązać Fizyczny Test Turinga dla robotyki. To następne, a może OSTATNIE wielkie wyzwanie AI. Superinteligencja w ciągach tekstowych zdobędzie Nagrodę Nobla, zanim osiągniemy inteligencję szympansa w zwinności i zręczności. Paradoks Moraveca to przekleństwo, które należy przełamać, mur do zburzenia. Nic nie może stanąć między ludzkością a wykładniczą wydajnością fizyczną na tej planecie, a może pewnego dnia na planetach poza nią.
Rozpoczęliśmy małe laboratorium w NVIDIA i niedawno urosło do 30 osób. Nasz zespół działa znacznie powyżej swoich możliwości. Nasza działalność badawcza obejmuje modele podstawowe, modele świata, uosobione rozumowanie, symulację, kontrolę całego ciała i wiele odmian RL - zasadniczo pełny stos uczenia się robotów.
W tym roku uruchomiliśmy:
- modele podstawowe GR00T VLA (wizja-język-działanie): open-sourced N1 w marcu, N1.5 w czerwcu i N1.6 w tym miesiącu;
- GR00T Dreams: model świata wideo do skalowania syntetycznych danych;
- SONIC: model podstawowy do kontroli całego ciała humanoida;
- RL po treningu dla VLA i przepisy RL dla sim2real.
To nie byłoby możliwe bez licznych współpracujących zespołów w NVIDIA, silnego wsparcia kierownictwa i współautorów z laboratoriów uniwersyteckich. Dziękuję wszystkim za wiarę w tę misję.
Wątek na temat galerii kamieni milowych:

171
Atari 2600 był złotym standardem dla agentów AI w czasach mojej pracy doktorskiej. Pojedyncza sieć neuronowa zdolna do grania w ponad 50 gier Atari byłaby uważana za niesamowitą. Modele miały trudności z mapowaniem ekranów w odcieniach szarości o rozdzielczości 84x84 na kilka przycisków.
Następnie OpenAI Five (Dota) i AlphaStar od DeepMind podniosły poprzeczkę, pokonując najlepszych mistrzów świata w Esportach. Jednak były przystosowane do jednego wirtualnego środowiska na raz. Zmiana czegokolwiek natychmiast łamała model.
Ludzie są niezwykle dobrzy w dostosowywaniu się do bardzo różnych fizyk i zasad - coś, co wciąż umyka naszym najbardziej zaawansowanym, bilionowym LLM-om. Pomyśl o 1000 grach jako o 1000 symulacjach. Im więcej wirtualnych światów, do których agent może się dostosować, tym lepiej rozwija rozumowanie ucieleśnione, percepcję i koordynację ruchową. Wszystko to kluczowe elementy w wielkiej układance robotyki.
Poprzez udostępnienie modelu NitroGen i API Gym, realizujemy ten sam cel co AlphaGo, AlphaStar, OpenAI Five i ostatnio Google SIMA: nie po to, aby odebrać radość z tych gier, ale aby podkreślić ograniczenia nowoczesnej AI, zapewnić solidną bazę i stworzyć nowy standard - "Atari 2.0" - do mierzenia postępów odpowiednio.

Jim Fan20 gru, 01:15
Przedstawiamy NitroGen, model bazowy open-source, przeszkolony do grania w ponad 1000 gier: RPG, platformówki, battle royale, wyścigi, 2D, 3D, co tylko chcesz! Jesteśmy w trakcie poszukiwań ogólnych agentów wcielonych, którzy opanowują nie tylko fizykę rzeczywistego świata, ale także wszelkie możliwe fizyki w multiversum symulacji.
Odkryliśmy, że nasza architektura GR00T N1.5, pierwotnie zaprojektowana do robotyki, może być łatwo dostosowana do grania w wiele gier o skrajnie różnych mechanikach. Nasz przepis jest prosty i gorzki: (1) zestaw danych o wysokiej jakości z ponad 40K godzinami publicznej rozgrywki w terenie; (2) wysoce zdolny model bazowy do ciągłej kontroli motorycznej; (3) API Gym, które opakowuje dowolny plik gry, aby uruchomić symulacje.
Nasza kuracja danych to dużo zabawy: okazuje się, że gracze uwielbiają chwalić się swoimi umiejętnościami, nakładając kontroler w czasie rzeczywistym na strumień wideo. Dlatego trenujemy model segmentacji, aby wykrywać i wyodrębniać te wyświetlacze kontrolera i przekształcać je w działania ekspertów. Następnie maskujemy ten obszar, aby zapobiec wykorzystaniu skrótu przez model. Podczas treningu, wariant GR00T N1.5 uczy się mapować z 40K godzin pikseli na działania za pomocą transformatorów dyfuzyjnych.
NitroGen to dopiero początek, a przed nami długa droga do wspinaczki po zdolnościach. Skupiamy się tylko na stronie Systemu 1: "instynkt gracza" szybkiej kontroli motorycznej. Udostępniamy *wszystko*, abyś mógł eksperymentować: wagi modelu wstępnie wytrenowanego, cały zestaw danych akcji, kod oraz dokumentację z solidnymi szczegółami.
Dziś robotyka jest nadzbiorem trudnych problemów AI.
Jutro może stać się podzbiorem, punktem w znacznie większej przestrzeni latentnej wcielonej AGI.
Wtedy wystarczy, że poprosisz i "zapytasz o" kontroler robota.
To może być gra końcowa (gra słów zamierzona).
NitroGen jest współkierowany przez nasze genialne umysły: Loic Magne, Anas Awadalla, Guanzhi Wang. To współpraca wielu instytucji. Sprawdź wątek techniczny Guanzhi oraz linki do repozytoriów poniżej!
492
Przedstawiamy NitroGen, model bazowy open-source, przeszkolony do grania w ponad 1000 gier: RPG, platformówki, battle royale, wyścigi, 2D, 3D, co tylko chcesz! Jesteśmy w trakcie poszukiwań ogólnych agentów wcielonych, którzy opanowują nie tylko fizykę rzeczywistego świata, ale także wszelkie możliwe fizyki w multiversum symulacji.
Odkryliśmy, że nasza architektura GR00T N1.5, pierwotnie zaprojektowana do robotyki, może być łatwo dostosowana do grania w wiele gier o skrajnie różnych mechanikach. Nasz przepis jest prosty i gorzki: (1) zestaw danych o wysokiej jakości z ponad 40K godzinami publicznej rozgrywki w terenie; (2) wysoce zdolny model bazowy do ciągłej kontroli motorycznej; (3) API Gym, które opakowuje dowolny plik gry, aby uruchomić symulacje.
Nasza kuracja danych to dużo zabawy: okazuje się, że gracze uwielbiają chwalić się swoimi umiejętnościami, nakładając kontroler w czasie rzeczywistym na strumień wideo. Dlatego trenujemy model segmentacji, aby wykrywać i wyodrębniać te wyświetlacze kontrolera i przekształcać je w działania ekspertów. Następnie maskujemy ten obszar, aby zapobiec wykorzystaniu skrótu przez model. Podczas treningu, wariant GR00T N1.5 uczy się mapować z 40K godzin pikseli na działania za pomocą transformatorów dyfuzyjnych.
NitroGen to dopiero początek, a przed nami długa droga do wspinaczki po zdolnościach. Skupiamy się tylko na stronie Systemu 1: "instynkt gracza" szybkiej kontroli motorycznej. Udostępniamy *wszystko*, abyś mógł eksperymentować: wagi modelu wstępnie wytrenowanego, cały zestaw danych akcji, kod oraz dokumentację z solidnymi szczegółami.
Dziś robotyka jest nadzbiorem trudnych problemów AI.
Jutro może stać się podzbiorem, punktem w znacznie większej przestrzeni latentnej wcielonej AGI.
Wtedy wystarczy, że poprosisz i "zapytasz o" kontroler robota.
To może być gra końcowa (gra słów zamierzona).
NitroGen jest współkierowany przez nasze genialne umysły: Loic Magne, Anas Awadalla, Guanzhi Wang. To współpraca wielu instytucji. Sprawdź wątek techniczny Guanzhi oraz linki do repozytoriów poniżej!
448
Najlepsze
Ranking
Ulubione