Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

trent.sol
75314b9c23e3ee03e79af1d0666746bc26fbcfa28572ac4a561aa591e1cc7f64
nie daj się zmylić. nie zapisuj się do wojny

bayes22 godz. temu
mam nadzieję, że lubisz wojnę informacyjną
13
nowe konta w bazie danych właśnie się pojawiły

Jeff Denworth9 sty, 12:03
W mgnieniu oka pojemność pamięci AI eksploduje o 12 300% (zobacz obliczenia poniżej). W tym tygodniu NVIDIA wprowadziła ogromne odblokowanie efektywności GPU: nową specjalizowaną architekturę pamięci AI, która rozszerza kontekst/tokeny przetwarzane w HBM - i teraz może przenieść kontekst do współdzielonej pamięci NVMe. Dzięki zapisywaniu kontekstu w pamięci KV Cache, systemy wnioskowania unikają kosztów ponownego obliczania kontekstu (dla dużego wnioskowania kontekstowego), co obniża czas do pierwszego tokena o 20 razy lub więcej.
To, co ludzie nie zdają sobie sprawy, to że jest to zupełnie nowy generator danych - i nie tylko rynek potrzebuje nowego podejścia do szybkości i efektywności pamięci, ale wiele (regulowanych) laboratoriów AI nadal będzie potrzebować możliwości zarządzania danymi przedsiębiorstwa, które nie mogą być poświęcone na rzecz surowej szybkości.
NVIDIA nazywa to platformą Inference Context Memory Storage (ICMS). Pracujemy z nimi od tygodni, aby wprowadzić nowy sposób konfigurowania systemów VAST, który zapewnia maksymalną efektywność, poprzez osadzenie podstawowej logiki systemów VAST bezpośrednio w maszynach GPU BlueField DPU.
**12x to nie żart. Dzisiaj zrobiłem obliczenia**
- Standardowy system VAST, minimalnie skonfigurowany dla NCP (NVIDIA Cloud Partner), ma około 1,3 TB danych na każdy GPU w klastrze klasy GB200.
- Gdy dodamy dodatkową infrastrukturę do rozszerzenia pamięci kontekstowej, GPU będą wymagały dodatkowych 16 TB, gdy wkraczamy w erę Very Rubin. 12,3x.
Dlaczego @VAST_Data, możesz zapytać?
1. Nasza równoległa architektura DASE pozwala nam osadzić serwery VAST bezpośrednio w każdym serwerze BlueField. To nie tylko zmniejsza wymagania infrastrukturalne w porównaniu do konwencjonalnych konfiguracji, w których oddzielne serwery x86 były współdzielone przez klientów GPU, ale także zmienia fundamentalny paradygmat klient:serwer... gdzie po raz pierwszy każda maszyna kliencka GPU ma teraz własny dedykowany serwer. Równoległa architektura VAST Disaggregated, Shared-Everything umożliwia osadzenie serwerów w każdym kliencie bez wprowadzania zakłóceń między serwerami VAST, jak miałoby to miejsce w przypadku jakiejkolwiek innej technologii pamięci.
Każdy serwer łączy się bezpośrednio ze wszystkimi SSD klastra, wymagając jednego skoku zero-copy, aby dotrzeć do całego współdzielonego kontekstu - więc każda maszyna może w czasie rzeczywistym pobierać kontekst. Efektywność i skala tej architektury są bezprecedensowe.
2. Chociaż możemy uzyskać świetną wydajność, upraszczając usługi danych działające w BlueField, nasza architektura o śmiesznie równoległej strukturze pozwala nam podłączyć dodatkowe serwery do tej samej struktury, aby zapewnić opcjonalne zarządzanie danymi przedsiębiorstwa w tle... wprowadzając możliwości takie jak ochrona danych, audyt, szyfrowanie i redukcja danych KVCache do 2:1 w klastrze, który ma ultra-optymalizowaną ścieżkę danych do GPU.
Z VAST laboratoria AI nie muszą wybierać...
Mogą uzyskać wydajność i niesamowite globalne funkcje zarządzania danymi.
Ta przestrzeń ewoluuje w tej chwili... jest wiele miejsca na wynalazki.
Napisz do mnie, aby współtworzyć przyszłość przyspieszonych systemów wnioskowania z nami.



20
Najlepsze
Ranking
Ulubione
