トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Metaと共同研究者による新しい研究。
これは適切な世界モデルで何が可能かを示す良い論文です。
世界のモデルは結果を予測するために行動を必要とします。現在のデフォルトアプローチはラベル付きアクションデータを必要としており、これは取得にコストがかかり、ビデオゲームやロボット操作のような狭い領域に限られています。
しかし、オンラインの動画データの大多数にはアクションラベルが全くありません。
この新しい研究は、現場の動画から直接潜在作用世界モデルを学習し、従来の制御された環境を超えて、現実世界の行動の多様性を十分に捉えることを目指します。
この課題は非常に大きいです。現場の動画には、単なるナビゲーションや操作をはるかに超えたアクションが含まれています。人がフレームに入ったり、物体が現れたり消えたり、ダンサーが動き、指がギターコードを作ったりします。また、ロボティクスのデータセットのように同じ腕が全体を通して現れるのとは違い、動画全体で一貫した具現化が存在しません。
では、著者たちはこの問題にどう対処しているのでしょうか?
連続的だが制約された潜在作用は、疎またはノイズの多い正則化を用いて、この作用の複雑さを効果的に捉えます。離散量子化は、これまでの研究で一般的なアプローチですが、適応に苦労しています。共有の身体がなければ、モデルは空間的に局所的でカメラ相対的な変換を学習します。
その結果は真の行動転移を示しています。
歩く人の動きは、飛んでいるボールにも応用できます。「誰かがフレームに入る」といった動作は、まったく異なる動画間で転送されます。
小型コントローラーを訓練して既知の動作を潜在的な行動にマッピングさせることで、純粋に自然な映像で訓練された世界モデルは、領域固有のアクションラベル付きデータで訓練されたモデルに近い性能でロボット操作やナビゲーションタスクを解決できます。
ラベルのないインターネット動画から学んだ潜在アクション空間は、計画の汎用インターフェースとして機能し、アクション注釈のボトルネックを取り除くことができます。
論文:
私たちのアカデミーで効果的なAIエージェントの構築方法を学びましょう:

トップ
ランキング
お気に入り
