Reúne algunas notas sobre el nuevo artículo de DeepMind "Los modelos de video son aprendices y razonadores de cero disparos" - hace un caso muy convincente de que los modelos de video generativos son para los problemas de visión lo que los LLMs fueron para los problemas de NLP: modelos únicos que pueden resolver una amplia variedad de desafíos.
@JustinAngel En ambos casos, puedes encontrar casos extremos que expongan sus limitaciones; con los LLMs, es posible que esas limitaciones se superen a medida que los modelos mejoren. Será interesante ver si eso sucede con los modelos de video.
24,9K