Моя любимая статья в этом году: "Видеомодели являются нулевыми обучающимися и рассуждающими" Она иллюстрирует, что видеомодели демонстрируют возникающее визуальное рассуждение в большом масштабе - они могут решать задачи зрения, для которых не были обучены. Это может быть "момент GPT" для зрения. Давайте разберем это 👇
Чтобы начать, почему стоит верить, что видеомодели могут развить визуальное мышление? С похожим явлением мы столкнулись и в текстах. Раньше мы обучали конкретные модели для каждой задачи, но теперь LLM имеют общее понимание языка и могут справляться с множеством задач, для которых они не были явно обучены. Возможно, что видеомодели могут сделать то же самое в большом масштабе.
В этой статье было проанализировано более 18 тысяч видео, созданных Veo 3, в рамках как качественных, так и количественных задач. Было установлено, что Veo может воспринимать, изменять и манипулировать визуальным миром (начиная с изображений и текстовых подсказок) - демонстрируя ранние навыки рассуждения, для которых он не был явно обучен. Мы будем рассматривать каждую категорию по очереди.
👀 Восприятие - когда его просят, Veo может обнаруживать края и идентифицировать различные объекты в сцене. Это означает, что он может функционировать как модель сегментации, несмотря на то, что не был обучен для этой задачи, что имеет некоторые интересные последствия. 1) "Добавьте яркую синюю точку на кончике ветки, на которой сидит ара. Глаз ара становится ярко-красным. Всё остальное становится черным как смоль." 2) "Синяя сфера мгновенно начинает светиться. Статическая перспектива камеры."
🌐 Моделирование - Veo может моделировать мир (и принципы, которые его управляют) на основе этого восприятия. Это демонстрирует хорошее понимание физики - такие вещи, как сопротивление воздуха и плавучесть, оптические явления, такие как преломление и отражение, и смешивание цветов. 1) "Рука отпускает объект" 2) "Огромная зеркально-polished металлическая сфера катится по комнате"
🤏 Манипуляция - Veo может манипулировать визуальным миром на основе этого восприятия и моделирования. Это позволяет выполнять задачи редактирования изображений без примеров - подумайте о таких вещах, как композитинг сцен, удаление фона, перенос стиля или даже ловкая манипуляция. 1) "Используйте здравый смысл и пусть две роботизированные руки, прикрепленные к рукам, откроют банку, как это сделал бы человек." 2) "Преобразуйте этот селфи в профессиональный портрет для LinkedIn."
🤔 Визуальное мышление - все вышеперечисленные навыки приводят к рассуждению. Это измеряется путем предоставления модели задач на основе зрения, которые требуют пошагового рассуждения. Подумайте о создании аналогий, решении лабиринтов или головоломок, использовании инструментов или перемещении по графу. 1) "Не пересекая черную границу, серый мышонок из угла ловко проходит лабиринт, обходя его, пока не найдет желтый сыр." 2) "Измените правый нижний квадрат, чтобы он соответствовал правилу, установленному другими квадратами. Вы можете заполнять ячейки, очищать ячейки или изменять цвет ячейки."
Вот отличные новости: визуальное мышление со временем улучшается. Результаты по многим из этих задач значительно возросли между Veo 2 и Veo 3. Я привел несколько примеров ниже. Кратко - "Если вы ждете точной физики в видео моделях, стойте в очереди" 😂
254