Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nghiên cứu mới từ Meta và các cộng tác viên.
Đây là một bài báo tốt cho thấy những gì có thể với các mô hình thế giới đúng cách.
Các mô hình thế giới cần hành động để dự đoán hậu quả. Cách tiếp cận mặc định hiện nay yêu cầu dữ liệu hành động có nhãn, điều này tốn kém để thu thập và giới hạn trong các lĩnh vực hẹp như trò chơi video hoặc thao tác robot.
Nhưng phần lớn dữ liệu video trực tuyến hoàn toàn không có nhãn hành động.
Nghiên cứu mới này giải quyết việc học các mô hình thế giới hành động tiềm ẩn trực tiếp từ các video thực tế, mở rộng ra ngoài các cài đặt kiểm soát của các công trình trước đó để nắm bắt sự đa dạng đầy đủ của các hành động trong thế giới thực.
Thách thức là rất lớn. Các video thực tế chứa các hành động vượt xa việc điều hướng hoặc thao tác đơn giản: người vào khung hình, các đối tượng xuất hiện và biến mất, vũ công di chuyển, ngón tay tạo thành hợp âm guitar. Cũng không có sự hiện diện nhất quán giữa các video, không giống như các tập dữ liệu robot, nơi cùng một cánh tay xuất hiện xuyên suốt.
Vậy các tác giả giải quyết điều này như thế nào?
Các hành động tiềm ẩn liên tục nhưng bị hạn chế, sử dụng điều chỉnh thưa thớt hoặc ồn ào, hiệu quả trong việc nắm bắt sự phức tạp của hành động này. Phân loại rời rạc, cách tiếp cận phổ biến trong các công trình trước đó, gặp khó khăn trong việc thích ứng. Không có một hình thức chung, mô hình học các biến đổi tương đối không gian, theo camera.
Các kết quả cho thấy sự chuyển giao hành động thực sự.
Chuyển động từ một người đi bộ có thể được áp dụng cho một quả bóng bay. Các hành động như "một ai đó vào khung hình" chuyển giao qua các video hoàn toàn khác nhau.
Bằng cách đào tạo một bộ điều khiển nhỏ để ánh xạ các hành động đã biết sang các hành động tiềm ẩn, mô hình thế giới được đào tạo hoàn toàn trên các video tự nhiên có thể giải quyết các nhiệm vụ thao tác và điều hướng robot với hiệu suất gần giống như các mô hình được đào tạo trên dữ liệu có nhãn hành động, cụ thể cho miền.
Các không gian hành động tiềm ẩn được học từ các video internet không có nhãn có thể phục vụ như một giao diện phổ quát cho việc lập kế hoạch, loại bỏ nút thắt cổ chai của việc chú thích hành động.
Bài báo:
Học cách xây dựng các tác nhân AI hiệu quả trong học viện của chúng tôi:

Hàng đầu
Thứ hạng
Yêu thích
