Sett sammen noen notater på den nye DeepMind-artikkelen "Videomodeller er zero-shot learners and reasoners" - det gir en veldig overbevisende sak om at generative videomodeller er for synsproblemer hva LLM-er var for NLP-problemer: enkeltmodeller som kan løse et bredt spekter av utfordringer
@JustinAngel I begge tilfeller kan du komme opp med edge-tilfeller som avslører deres begrensninger - med LLM-er kan eller disse begrensningene se overvinnes etter hvert som modellene forbedres, vil være interessant å se om det skjer for videomodeller
24,89K