Sporządź notatki na temat nowego artykułu DeepMind "Modele wideo są uczniami i rozumującymi w trybie zero-shot" - przedstawia bardzo przekonujący argument, że generatywne modele wideo są dla problemów wizji tym, czym modele LLM były dla problemów NLP: pojedyncze modele, które mogą rozwiązywać szeroki wachlarz wyzwań.
@JustinAngel W obu przypadkach można wymyślić przypadki brzegowe, które ujawniają ich ograniczenia - w przypadku LLM mogą te ograniczenia zostać przezwyciężone, gdy modele się poprawią, będzie interesujące zobaczyć, czy to się stanie w przypadku modeli wideo.
24,88K