Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Într-o clipă, capacitatea de stocare AI explodează cu 12.300% (vezi matematica de mai jos). Săptămâna aceasta, NVIDIA a introdus o deblocare masivă a eficienței GPU-urilor: o nouă arhitectură specializată de stocare AI care extinde contextul/tokenurile procesate în HBM – și care acum poate revărsa contextul în stocarea partajată NVMe. Prin salvarea contextului într-un KV Cache, sistemele de inferență evită costul recalculării contextului (pentru inferență mare a contextului), reducând timpul până la primul token cu 20x sau mai mult.
Ceea ce oamenii nu realizează este că acesta este un generator de date complet nou – și nu doar că piața are nevoie de o nouă abordare a vitezei și eficienței stocării, dar multe laboratoare AI (reglementate) vor avea în continuare nevoie de o capacitate de gestionare a datelor la nivel enterprise, care nu poate fi sacrificată pentru viteza brută.
NVIDIA numește această platformă Inference Context Memory Storage (ICMS). Lucrăm cu ei de săptămâni întregi pentru a pionier o nouă modalitate de configurare a sistemelor VAST care oferă eficiență maximă, prin integrarea logicii de bază a sistemelor VAST direct în BlueField DPU a unei mașini GPU.
**12x nu e de glumă. Am făcut calculele azi **
- Un sistem VAST standard, configurat minim pentru un NCP (NVIDIA Cloud Partner), are aproximativ 1,3TB de date per fiecare GPU într-un cluster de clasă GB200.
- Când adăugăm infrastructură suplimentară pentru extensia memoriei de context, plăcile video vor necesita încă 16TB pe măsură ce pășim în era Vera Rubin. 12,3x.
De ce @VAST_Data, te-ai putea întreba?
1. arhitectura noastră paralelă DASE ne permite să integrăm servere VAST direct în fiecare server BlueField. Acest lucru nu doar reduce cerințele de infrastructură față de configurațiile convenționale unde serverele x86 separate erau partajate de clienții GPU, ci schimbă și paradigma fundamentală client:server... unde, pentru prima dată, fiecare calculator client GPU are acum propriul server dedicat. Arhitectura paralelă Disaggregated, Shared-Everything a VAST face posibilă încorporarea serverelor în fiecare client fără a introduce cross-talk între serverele VAST, așa cum s-ar întâmpla pentru orice altă tehnologie de stocare.
Fiecare server se conectează apoi direct la toate SSD-urile clusterului, necesitând un singur salt zero-copy pentru a ajunge la tot contextul partajat – astfel încât orice mașină să poată recupera contextul în timp real. Eficiența și amploarea acestei arhitecturi sunt fără precedent.
2. Deși putem obține performanțe excelente prin reducerea serviciilor de date care rulează în BlueField, arhitectura noastră rușinos de paralelă ne permite să agățăm servere suplimentare de aceeași structură pentru a oferi opțional management al datelor enterprise în fundal... aducând capabilități precum protecția datelor, audit, criptare și până la reducerea datelor KVCache până la 2:1 într-un cluster care are o cale de date ultra-simplificată către GPU.
Cu VAST, laboratoarele AI nu trebuie să aleagă...
Pot obține performanță și funcții globale de management global al datelor.
Acest spațiu evoluează chiar acum... Există mult spațiu pentru a inventa.
Scrie-mi în privat pentru a co-dezvolta viitorul sistemelor de inferență accelerată împreună cu noi.



Limită superioară
Clasament
Favorite
