Rassemblez quelques notes sur le nouvel article de DeepMind "Les modèles vidéo sont des apprenants et des raisonneurs sans apprentissage préalable" - il présente un argument très convaincant selon lequel les modèles vidéo génératifs sont aux problèmes de vision ce que les LLM étaient aux problèmes de NLP : des modèles uniques capables de résoudre un large éventail de défis.
@JustinAngel Dans les deux cas, vous pouvez trouver des cas limites qui exposent leurs limitations - avec les LLM, ces limitations pourraient être surmontées à mesure que les modèles s'améliorent, il sera intéressant de voir si cela se produit pour les modèles vidéo.
24,88K