熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
眨眼之間,AI 存儲的容量爆炸性增長了 12,300%(見下方數學計算)。本週,NVIDIA 推出了 GPU 效率的重大解鎖:一種新的專用 AI 存儲架構,擴展了在 HBM 中處理的上下文/標記,並且現在可以將上下文溢出到共享的 NVMe 存儲中。通過在 KV 緩存中保存上下文,推理系統避免了上下文重新計算的成本(對於大型上下文推理),將首次標記的時間縮短了 20 倍或更多。
人們沒有意識到的是,這是一個全新的數據生成器——市場不僅需要一種新的存儲速度和效率的方法,而且許多(受監管的)AI 實驗室仍然需要企業數據管理能力,這一點不能因為原始速度而被犧牲。
NVIDIA 將其稱為推理上下文記憶存儲(ICMS)平台。我們已經與他們合作了幾週,開創了一種新的配置 VAST 系統的方法,通過將 VAST 系統的核心邏輯直接嵌入到 GPU 機器的 BlueField DPU 中來提供終極效率。
**12 倍可不是開玩笑。我今天做了數學計算**
- 一個標準的 VAST 系統,為 NCP(NVIDIA 雲合作夥伴)最小配置,約每個 GPU 在 GB200 級集群中擁有 1.3TB 的數據。
- 當我們為上下文記憶擴展添加額外基礎設施時,GPU 將需要額外的 16TB,因為我們步入 Vera Rubin 時代。12.3 倍。
為什麼 @VAST_Data ,你可能會問?
1. 我們的並行 DASE 架構允許我們將 VAST 伺服器直接嵌入到每個 BlueField 伺服器中。這不僅減少了與傳統配置相比的基礎設施需求,後者是由 GPU 客戶共享的獨立 x86 伺服器,還改變了基本的客戶端:伺服器範式……這是第一次每個 GPU 客戶機現在都有自己的專用伺服器。VAST 的並行解耦、共享一切架構使得在每個客戶端中嵌入伺服器成為可能,而不會引入跨 VAST 伺服器的串擾,這在任何其他存儲技術中都是不可能的。
然後,每個伺服器直接連接到集群的所有 SSD,僅需一次零複製跳躍即可訪問所有共享上下文——因此任何機器都可以實時檢索上下文。這種架構的效率和規模是前所未有的。
2. 雖然我們可以通過簡化在 BlueField 上運行的數據服務來獲得出色的性能,但我們的極其並行架構允許我們在同一網絡上掛載額外的伺服器,以提供可選的背景企業數據管理……為集群帶來數據保護、審計、加密和高達 2:1 的 KVCache 數據減少等功能,並且擁有一條超精簡的數據通道到 GPU。
有了 VAST,AI 實驗室不必選擇……
他們可以獲得性能和強大的全球數據管理功能。
這個領域正在迅速發展……有很多空間可以創新。
私信我,與我們共同開發加速推理系統的未來。



熱門
排行
收藏
