Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

trent.sol
75314b9c23e3ee03e79af1d0666746bc26fbcfa28572ac4a561aa591e1cc7f64
New accountsDB har nettopp blitt sluppet

Jeff Denworth9. jan., 12:03
I løpet av et øyeblikk eksploderer kapasiteten for AI-lagring med 12 300 % (se matematikk nedenfor). Denne uken introduserte NVIDIA en massiv opplåsning for GPU-effektivitet: en ny spesialisert AI-lagringsarkitektur som utvider kontekst/tokens som behandles i HBM – og nå kan overføre kontekst til delt NVMe-lagring. Ved å lagre kontekst i en KV Cache unngår inferenssystemer kostnaden ved kontekstomberegning (for stor kontekstinferens), noe som reduserer tiden til første token med 20 ganger eller mer.
Det folk ikke forstår, er at dette er en helt ny datagenerator – og ikke bare trenger markedet en ny tilnærming til lagringshastighet og effektivitet, men mange (regulerte) AI-laboratorier vil fortsatt trenge bedriftsdatahåndtering som ikke kan ofres for rå hastighet.
NVIDIA kaller dette Inference Context Memory Storage (ICMS) Platform. Vi har jobbet med dem i flere uker nå for å utvikle en ny måte å konfigurere VAST-systemer på som gir maksimal effektivitet, ved å integrere kjernelogikken i VAST-systemene direkte i en GPU-maskins BlueField DPU.
**12x er ingen spøk. Jeg regnet på det i dag **
- Et standard VAST-system, minimalt konfigurert for en NCP (NVIDIA Cloud Partner), har omtrent 1,3 TB data per GPU i en GB200-klasse klynge.
- Når vi legger til ekstra infrastruktur for utvidelse av kontekstminne, vil GPU-er kreve ytterligere 16TB når vi går inn i Vera Rubin-æraen. 12,3 ganger.
Hvorfor @VAST_Data, lurer du kanskje?
1. vår parallelle DASE-arkitektur lar oss bygge inn VAST-servere direkte i hver BlueField-server. Dette reduserer ikke bare infrastrukturbehovet sammenlignet med konvensjonelle konfigurasjoner der separate x86-servere ble delt av GPU-klienter, det endrer også det grunnleggende klient:server-paradigmet... hvor hver GPU-klientmaskin for første gang nå har sin egen dedikerte server. VASTs parallelle Disaggregated, Shared-Everything-arkitektur gjør det mulig å legge inn servere i hver klient uten å introdusere kryssprat på tvers av VAST-servere, slik det ville vært for andre lagringsteknologier.
Hver server kobler seg deretter direkte til alle klyngens SSD-er, noe som krever et enkelt null-kopi-hopp for å komme til all delt kontekst – slik at enhver maskin kan hente kontekst i sanntid. Effektiviteten og omfanget av denne arkitekturen er uten sidestykke.
2. Selv om vi kan oppnå god ytelse ved å strippe ned datatjenester som kjører i BlueField, lar vår pinlig parallelle arkitektur oss koble flere servere til samme struktur for å tilby valgfri bakgrunnsdatabehandling for bedrifter... og bringer funksjoner som databeskyttelse, revisjon, kryptering og opptil 2:1 KVCache-datareduksjon til en klynge som har en ultrastrømlinjeformet databane til GPU-en.
Med VAST trenger ikke AI-laboratorier å velge...
De kan få ytelse og fantastiske globale datastyringsfunksjoner.
Dette rommet utvikler seg akkurat nå... Mye rom for oppfinnelser.
Send meg en DM for å utvikle fremtiden for akselererte inferenssystemer sammen med oss.



10
feil. Disse tingene vil slutte å eksistere
Alle vil bruke skreddersydde, ad hoc, feilfylte, halve implementeringer av det noen med smak ville ønske seg

chase.skr📱12 timer siden
Alle programvareverktøy/biblioteker/API-er fra nå av vil ha flere AI-brukere enn mennesker.
15
Topp
Rangering
Favoritter

