Zet wat aantekeningen op over het nieuwe DeepMind-paper "Video modellen zijn zero-shot leraren en redenaars" - het maakt een zeer overtuigend geval dat generatieve videomodellen voor visuele problemen zijn wat LLM's waren voor NLP-problemen: enkele modellen die een breed scala aan uitdagingen kunnen oplossen.
@JustinAngel In beide gevallen kun je randgevallen bedenken die hun beperkingen blootleggen - met LLM's kunnen die beperkingen misschien worden overwonnen naarmate de modellen verbeteren, het zal interessant zijn om te zien of dat ook gebeurt voor videomodellen.
24,9K