DeepMind の新しい論文「ビデオ モデルはゼロショットの学習者であり推論者である」についていくつかのメモをまとめると、生成ビデオ モデルが視覚の問題にとって、LLM が NLP の問題にとってのものである、つまり幅広い課題を解決できる単一のモデルであるという非常に説得力のある主張をしています
@JustinAngel どちらの場合も、その限界を露呈するエッジケースを思いつくことができます - LLMでは、モデルが改善されるにつれて克服される可能性がある、またはそれらの制限が克服される可能性があり、それがビデオモデルで起こるかどうかを見るのは興味深いでしょう
24.89K