熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
持續學習中最困難的開放性問題是找出適合的基準和產品體驗,以進行上下文蒸餾。
你會想要考慮的方法清單相當有限,這些方法在不同的情況下會有權衡。目前,如何將它們彼此評估,或你最初會針對什麼具體問題部署解決方案,並不是很明顯。
一個極端:在 6 個月的離散區塊上進行「持續」學習,以獲得完整的直觀世界知識
我們真的期望有比持續的整個互聯網預訓練/中期訓練 + 重新進行正常的後期訓練更好的東西嗎?
像是,當然也許你可以將舊的後訓練檢查點與新的CPT檢查點進行權重合併,以獲得一些節省,也許你可以僅對某些層/專家進行CPT,我們可以昂貴地實驗哪個版本是最實用的,但設計空間是已知的。
所謂的「上下文蒸餾」,我指的是你會想要一些自動化的流程,這個流程可以接收信息匯總(聊天記錄、網頁文本、代碼庫歷史),並將它們整理成對於中期/後期訓練來說比原始形式(例如基本的問答)更有用的東西。
93
熱門
排行
收藏
