Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

trent.sol
75314b9c23e3ee03e79af1d0666746bc26fbcfa28572ac4a561aa591e1cc7f64
New accountsdb har precis släppts

Jeff Denworth9 jan. 12:03
I ett ögonblick exploderar kapaciteten för AI-lagring med 12 300 % (se matematik nedan). Den här veckan introducerade NVIDIA en enorm upplåsning för GPU-effektivitet: en ny specialiserad AI-lagringsarkitektur som utökar kontext/tokens som bearbetas i HBM – och nu kan läcka kontext ner till delad NVMe-lagring. Genom att spara kontext i en KV-cache undviker inferenssystem kostnaden för kontextomberäkning (för stora kontextinferens), vilket minskar tiden till första token med 20 gånger eller mer.
Vad folk inte inser är att detta är en helt ny datagenerator – och inte bara behöver marknaden ett nytt sätt att hantera lagringshastighet och effektivitet, utan många (reglerade) AI-labb kommer fortfarande att behöva företagsdatahantering som inte kan offras för rå hastighet.
NVIDIA kallar detta Inference Context Memory Storage (ICMS) Platform. Vi har arbetat med dem i veckor nu för att bana väg för ett nytt sätt att konfigurera VAST-system som ger maximal effektivitet, genom att bädda in kärnlogiken i VAST-systemen direkt i en GPU-maskins BlueField DPU.
**12x är inget skämt. Jag räknade på det idag **
- Ett standard VAST-system, minimalt konfigurerat för en NCP (NVIDIA Cloud Partner), har ungefär 1,3 TB data per GPU i ett GB200-klasskluster.
- När vi lägger till ytterligare infrastruktur för kontextminnesförlängning kommer GPU:er att kräva ytterligare 16TB när vi kliver in i Vera Rubin-eran. 12,3x.
Varför @VAST_Data, kanske du undrar?
1. vår parallella DASE-arkitektur tillåter oss att bädda in VAST-servrar direkt i varje BlueField-server. Detta minskar inte bara infrastrukturkraven jämfört med konventionella konfigurationer där separata x86-servrar delades av GPU-klienter, det förändrar också det grundläggande klient:server-paradigmet... där varje GPU-klientmaskin för första gången nu har sin egen dedikerade server. VAST:s parallella Disaggregated, Shared-Everything-arkitektur gör det möjligt att bädda in servrar i varje klient utan att introducera korsprat mellan VAST-servrar, som skulle vara fallet med vilken annan lagringsteknologi som helst.
Varje server ansluter sedan direkt till alla klustrets SSD:er, vilket kräver ett enda noll-kopieringshopp för att nå all delad kontext – så att vilken maskin som helst kan hämta kontext i realtid. Effektiviteten och skalan i denna arkitektur är utan motstycke.
2. Även om vi kan få bra prestanda genom att skala ner datatjänster som körs i BlueField, tillåter vår pinsamt parallella arkitektur oss att koppla ytterligare servrar till samma fabric för att erbjuda valfri bakgrundshantering av företagsdata... vilket tillför funktioner som dataskydd, revision, kryptering och upp till 2:1 KVCache-datareduktion till ett kluster som har en ultraströmlinjeformad dataväg till GPU:n.
Med VAST behöver AI-labb inte välja...
De kan få prestanda och fantastiska globala datahanteringsfunktioner.
Det här området utvecklas just nu... Mycket utrymme att uppfinna.
Skicka ett DM till mig för att vi kan samutveckla framtiden för accelererade inferenssystem.



5
fel. Dessa saker kommer att sluta existera
Alla kommer att använda skräddarsydda, ad hoc, buggiga, halva implementationer av vad någon med smak skulle vilja ha

chase.skr📱12 timmar sedan
Alla mjukvaruverktyg/bibliotek/API:er från och med nu kommer att ha fler AI-användare än mänskliga användare.
10
Topp
Rankning
Favoriter

