DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Jeff Denworth

Schaamteloze promotor, muziekliefhebber, trotse papa en gelukkige echtgenoot. VASTronaut @VAST_data

In een oogwenk explodeert de opslagcapaciteit van AI met 12.300% (zie wiskunde hieronder). Deze week introduceerde NVIDIA een enorme unlock voor GPU-efficiëntie: een nieuwe gespecialiseerde AI-opslagarchitectuur die context/tokens uitbreidt die in HBM worden verwerkt - en nu context kan doorgeven naar gedeelde NVMe-opslag. Door context op te slaan in een KV Cache, vermijden inferentiesystemen de kosten van het opnieuw berekenen van context (voor grote contextinference), waardoor de tijd tot de eerste token met 20x of meer wordt verlaagd. Wat mensen niet beseffen, is dat dit een geheel nieuwe gegevensgenerator is - en niet alleen heeft de markt een nieuwe benadering van opslag snelheid en efficiëntie nodig, maar veel (gereguleerde) AI-laboratoria zullen nog steeds de mogelijkheid voor enterprise databeheer nodig hebben, wat niet kan worden opgeofferd voor ruwe snelheid. NVIDIA noemt dit het Inference Context Memory Storage (ICMS) Platform. We werken nu al weken met hen samen om een nieuwe manier te pionieren om VAST-systemen te configureren die ultieme efficiëntie biedt, door de kernlogica van VAST-systemen direct in een GPU-machine BlueField DPU in te bedden. **De 12x is geen grap. Ik heb vandaag de wiskunde gedaan ** - Een standaard VAST-systeem, minimaal geconfigureerd voor een NCP (NVIDIA Cloud Partner), heeft ongeveer 1,3TB aan gegevens per GPU in een GB200-klasse cluster. - Wanneer we extra infrastructuur voor contextgeheugenuitbreiding toevoegen, zullen GPU's een extra 16TB vereisen als we de Vera Rubin-periode ingaan. 12,3x. Waarom @VAST_Data, vraag je je misschien af? 1. onze parallelle DASE-architectuur stelt ons in staat om VAST-servers direct in elke BlueField-server in te bedden. Dit vermindert niet alleen de infrastructuurvereisten ten opzichte van conventionele configuraties waarbij aparte x86-servers door GPU-clients werden gedeeld, maar het verandert ook het fundamentele client-server paradigma... waarbij voor het eerst elke GPU-clientmachine nu zijn eigen toegewijde server heeft. VAST's parallelle Disaggregated, Shared-Everything-architectuur maakt het mogelijk om servers in elke client in te bedden zonder kruisbespreking tussen VAST-servers, zoals het geval zou zijn bij andere opslagtechnologieën. Elke server verbindt zich vervolgens direct met alle SSD's van het cluster, wat een enkele zero-copy hop vereist om toegang te krijgen tot alle gedeelde context - zodat elke machine context in real-time kan ophalen. De efficiëntie en schaal van deze architectuur is ongekend. 2. Terwijl we geweldige prestaties kunnen behalen door datadiensten die in BlueField draaien te strippen, stelt onze belachelijk parallelle architectuur ons in staat om extra servers aan dezelfde fabric te hangen om optionele achtergrond enterprise databeheer te bieden... met mogelijkheden zoals gegevensbescherming, audit, encryptie en tot 2:1 KVCache-gegevensreductie naar een cluster dat een ultra-gestroomlijnde datapad naar de GPU heeft. Met VAST hoeven AI-laboratoria geen keuze te maken... Ze kunnen prestaties en geweldige wereldwijde databeheerfuncties krijgen. Deze ruimte evolueert op dit moment... veel ruimte om uit te vinden. DM me om samen de toekomst van versnelde inferentiesystemen te ontwikkelen.

Boven

Positie

Favorieten