整理一些關於新的 DeepMind 論文 "視頻模型是零樣本學習者和推理者" 的筆記 - 它非常有說服力地表明,生成視頻模型對於視覺問題的作用就像 LLM 對於 NLP 問題的作用:單一模型可以解決各種挑戰。
@JustinAngel 在這兩種情況下,你都可以提出邊緣案例來揭示它們的局限性——隨著大型語言模型的改進,這些局限性可能會被克服,看看視頻模型是否會發生這種情況會很有趣。
24.88K