Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

trent.sol
75314b9c23e3ee03e79af1d0666746bc26fbcfa28572ac4a561aa591e1cc7f64
non confonderti. non iscriverti alla guerra

bayes22 ore fa
spero ti piaccia la guerra dell'informazione
14
è appena stata rilasciata una nuova accountsdb

Jeff Denworth9 gen, 12:03
In un batter d'occhio, la capacità di archiviazione AI esplode del 12.300% (vedi i calcoli qui sotto). Questa settimana, NVIDIA ha introdotto un enorme sblocco dell'efficienza delle GPU: una nuova architettura di archiviazione AI specializzata che estende il contesto/token elaborati in HBM - e ora può spillare il contesto nello storage NVMe condiviso. Salvando il contesto in una KV Cache, i sistemi di inferenza evitano il costo del ricalcolo del contesto (per l'inferenza di contesto ampio), riducendo il tempo per il primo token di 20 volte o più.
Ciò che le persone non si rendono conto è che questo è un generatore di dati completamente nuovo - e non solo il mercato ha bisogno di un nuovo approccio alla velocità e all'efficienza dell'archiviazione, ma molti laboratori AI (regolamentati) avranno ancora bisogno di capacità di gestione dei dati aziendali che non possono essere sacrificate per la pura velocità.
NVIDIA chiama questa piattaforma Inference Context Memory Storage (ICMS). Stiamo lavorando con loro da settimane per pionierare un nuovo modo di configurare i sistemi VAST che forniscono l'efficienza massima, incorporando la logica centrale dei sistemi VAST direttamente in una macchina GPU BlueField DPU.
**Il 12x non è uno scherzo. Ho fatto i calcoli oggi**
- Un sistema VAST standard, configurato minimamente per un NCP (NVIDIA Cloud Partner), ha circa 1,3TB di dati per ogni GPU in un cluster di classe GB200.
- Quando aggiungiamo infrastrutture aggiuntive per l'estensione della memoria di contesto, le GPU richiederanno ulteriori 16TB mentre entriamo nell'era di Vera Rubin. 12,3x.
Perché @VAST_Data, potresti chiedere?
1. La nostra architettura DASE parallela ci consente di incorporare i server VAST direttamente in ciascun server BlueField. Questo non solo riduce i requisiti infrastrutturali rispetto alle configurazioni convenzionali in cui server x86 separati erano condivisi dai client GPU, ma cambia anche il paradigma fondamentale client:server... dove per la prima volta ogni macchina client GPU ha ora il proprio server dedicato. L'architettura parallela Disaggregated, Shared-Everything di VAST rende possibile incorporare server in ciascun client senza introdurre interferenze tra i server VAST come sarebbe il caso per qualsiasi altra tecnologia di archiviazione.
Ogni server si collega quindi direttamente a tutti gli SSD del cluster, richiedendo un singolo salto zero-copy per accedere a tutto il contesto condiviso - quindi qualsiasi macchina può recuperare il contesto in tempo reale. L'efficienza e la scala di questa architettura sono senza precedenti.
2. Mentre possiamo ottenere ottime prestazioni riducendo i servizi di dati che funzionano in BlueField, la nostra architettura imbarazzantemente parallela ci consente di appendere server aggiuntivi alla stessa rete per fornire una gestione dei dati aziendali opzionale in background... portando capacità come protezione dei dati, audit, crittografia e fino a 2:1 di riduzione dei dati KVCache a un cluster che ha un percorso dati ultra-snello verso la GPU.
Con VAST, i laboratori AI non devono scegliere...
Possono ottenere prestazioni e fantastiche funzionalità di gestione globale dei dati.
Questo settore si sta evolvendo proprio ora... c'è molto spazio per inventare.
Contattami per co-sviluppare il futuro dei sistemi di inferenza accelerata con noi.



21
Principali
Ranking
Preferiti
