Metti insieme alcune note sul nuovo articolo di DeepMind "I modelli video sono apprendisti e ragionatori zero-shot" - presenta un argomento molto convincente che i modelli video generativi sono per i problemi di visione ciò che gli LLM erano per i problemi di NLP: modelli singoli che possono risolvere una vasta gamma di sfide.
@JustinAngel In entrambi i casi puoi trovare casi limite che mettono in evidenza le loro limitazioni - con i LLM potrebbe essere che quelle limitazioni vengano superate man mano che i modelli migliorano, sarà interessante vedere se ciò accadrà anche per i modelli video.
24,89K