Göz açıp kapayıncaya kadar, yapay zeka depolama kapasitesi %12.300 artıyor (aşağıdaki matematiğe bakınız). Bu hafta, NVIDIA GPU verimliliğine büyük bir açıntı getirdi: HBM'de işlenen bağlam/tokenları genişleten ve artık bağlamı paylaşılan NVMe depolamaya aktarabilen yeni özel bir yapay zeka depolama mimarisi. Bağlamı bir KV Cache'de kaydederek, çıkarım sistemleri bağlam yeniden hesaplama maliyetinden (büyük bağlam çıkarımı için) kaçınır ve ilk token'a giden zamanı 20 kat veya daha fazla düşürür. İnsanların fark etmediği şey ise bunun tamamen yeni bir veri üreticisi olduğudur - ve piyasa sadece depolama hızı ve verimliliğine yeni bir yaklaşıma ihtiyaç duymakla kalmaz, aynı zamanda birçok (düzenlenmiş) yapay zeka laboratuvarının da ham hız için feda edilemeyecek kurumsal veri yönetimi yeteneğine ihtiyacı vardır. NVIDIA buna Çıkarım Bağlamı Bellek Depolama (ICMS) Platformu adını vermektedir. Haftalardır onlarla birlikte çalışıyoruz; VAST sistemlerinin temel mantığını doğrudan bir GPU makinesi BlueField DPU'suna gömleyerek nihai verimlilik sağlayan yeni bir yapılandırma yöntemi geliştiriyoruz. **12x şaka değil. Bugün matematiği yaptım ** - Standart bir VAST sistemi, NCP (NVIDIA Cloud Partner) için minimum olarak yapılandırılmış, GB200 sınıfı kümedeki her GPU başına yaklaşık 1.3TB veri içerir. - Bağlam belleği genişletmesi için ek altyapı eklediğimizde, GPU'lar Vera Rubin dönemine adım atırken ek 16TB gerektirecek. 12.3x. Neden @VAST_Data, diye sorabilirsiniz? 1. paralel DASE mimarimiz, VAST sunucularını doğrudan her BlueField sunucusuna gömmemize olanak tanır. Bu, yalnızca GPU istemcileri tarafından ayrı x86 sunucularının paylaşıldığı geleneksel yapılandırmalara kıyasla altyapı gereksinimlerini azaltmakla kalmaz, aynı zamanda temel istemci:sunucu paradigmasını da değiştirir... İlk kez her GPU istemcisi makinenin kendi özel sunucusu var. VAST'ın paralel Disagregated, Shared-Her Everything mimarisi, diğer depolama teknolojileri için olduğu gibi VAST sunucuları arasında çapraz iletişim eklemeden her istemciye sunucu gömülmesini mümkün kılar. Her sunucu daha sonra doğrudan tüm kümedeki SSD'lere bağlanır ve tüm paylaşılan bağlama ulaşmak için tek bir sıfır kopya atlaması gerekir - böylece herhangi bir makine gerçek zamanlı olarak bağlamı alabiliyor. Bu mimarinin verimliliği ve ölçeği eşi benzeri görülmemiştir. 2. BlueField'da çalışan veri servislerini sadeleştirerek harika performans elde edebiliyoruz, ancak utanç verici derecede paralel mimarimiz, aynı dokuya ek sunucular bağlayıp isteğe bağlı arka plan kurumsal veri yönetimi sunmamıza olanak tanıyor... veri koruma, denetim, şifreleme ve 2:1'e kadar KVCache veri azaltma gibi yetenekleri GPU'ya ultra akıcı bir veri yoluna sahip bir kümeye getiriyor. VAST'ta yapay zeka laboratuvarları seçim yapmak zorunda değil... Performans ve müthiş küresel veri yönetimi özellikleri elde edebilirler. Bu alan şu anda evriliyor... İcat için bolca alan var. Hızlandırılmış çıkarım sistemlerinin geleceğini bizimle birlikte geliştirmem için bana DM at.