X剛剛開源了“For You”算法的代碼 你需要知道的一切在1條推文和1張圖片中: 1. 原始輸入(數據) 一切都始於三個大數據桶: - 社交圖譜 → 你關注的人,關注你的人,你的網絡連接。 - 推文互動 → 點贊、轉發、回覆、書籤。 - 用戶數據 → 你的個人資料、行為、你點擊的內容、你忽略的內容。 這就是驅動整個系統的“燃料”。 2. 特徵工程 原始數據通過不同的模型/特徵進行處理,試圖理解它: - GraphJet → 推文、轉發、關注的實時圖。 - SimClusters → 將人和推文分組為興趣社區(如“AI Twitter”或“NBA Twitter”)。 - TwHIN → Twitter的“異構信息網絡”,基本上是用戶與推文關係的地圖。 - RealGraph → 預測用戶之間連接的強度。 - TweepCred → 可信度評分。 ...