Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jeff Denworth
Bezostyšný promotér, milovník hudby, hrdý táta a šťastný manžel. VASTronaut @VAST_data
Během mrknutí oka se kapacita AI úložiště rozroste o 12 300 % (viz matematika níže). Tento týden NVIDIA představila obrovské odemčení efektivity GPU: novou specializovanou AI architekturu úložiště, která rozšiřuje kontext/tokeny zpracovávané v HBM – a nyní může přenášet kontext do sdíleného NVMe úložiště. Uložením kontextu do KV cache se inferenční systémy vyhnou nákladům na přepočítání kontextu (pro velké inference kontextu), čímž snižují čas do prvního tokenu o 20x nebo více.
Lidé si neuvědomují, že jde o zcela nový generátor dat – a trh nejenže potřebuje nový přístup k rychlosti a efektivitě úložiště, ale mnoho (regulovaných) AI laboratoří bude stále potřebovat podnikové schopnosti správy dat, které nelze obětovat kvůli surové rychlosti.
NVIDIA tuto platformu nazývá Inference Context Memory Storage (ICMS). S nimi spolupracujeme už týdny na průkopnickém způsobu konfigurace VAST systémů, který poskytuje maximální efektivitu, tím, že základní logiku VAST systémů integrujeme přímo do GPU stroje BlueField DPU.
**Těch 12x není žádná legrace. Dnes jsem si to spočítal **
- Standardní systém VAST, minimálně konfigurovaný pro NCP (NVIDIA Cloud Partner), má přibližně 1,3TB dat na každou GPU v clusteru třídy GB200.
- Když přidáme další infrastrukturu pro rozšíření kontextové paměti, GPU budou potřebovat dalších 16TB, jakmile vstoupíme do éry Very Rubinové. 12,3x.
Proč @VAST_Data, možná se ptáte?
1. naše paralelní DASE architektura nám umožňuje přímo zabudovat VAST servery do každého BlueField serveru. To nejen snižuje požadavky na infrastrukturu oproti konvenčním konfiguracím, kde jsou oddělené x86 servery sdíleny GPU klienty, ale také mění základní klient:server paradigma... kde poprvé má každý klient s GPU svůj vlastní dedikovaný server. Paralelní architektura Disagreged, Shared-Everything ve VAST umožňuje vkládat servery do každého klienta bez zavádění přerušování komunikace mezi servery VAST, jak by tomu bylo u jakékoli jiné úložné technologie.
Každý server se pak přímo připojí ke všem SSD clusteru, což vyžaduje jeden nulový kopírovací skok pro přístup ke všem sdíleným kontextům – takže jakýkoli stroj může kontext získávat v reálném čase. Efektivita a rozsah této architektury jsou bezprecedentní.
2. I když můžeme dosáhnout skvělého výkonu odstraněním datových služeb, které běží v In BlueField, naše trapně paralelní architektura nám umožňuje připojit další servery na stejnou strukturu a poskytovat volitelnou správu podnikových dat na pozadí... přináší funkce jako ochrana dat, audit, šifrování a až 2:1 redukce dat KVCache do clusteru, který má ultra-zjednodušenou datovou cestu k GPU.
S VAST si AI laboratoře nemusí vybírat...
Mohou získat funkce pro výkon a zabijáckou globální správu dat.
Tento prostor se právě teď vyvíjí... Je tu spousta prostoru pro vynalézání.
Napište mi do zpráv, abychom společně vyvíjeli budoucnost systémů zrychlené inference.



14
Top
Hodnocení
Oblíbené
