Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

trent.sol
75314b9c23e3ee03e79af1d0666746bc26fbcfa28572ac4a561aa591e1cc7f64
akun baruDB baru saja dijatuhkan

Jeff Denworth9 Jan, 12.03
Dalam sekejap mata, penyimpanan AI meledak dalam kapasitas sebesar 12.300% (lihat matematika di bawah). Minggu ini, NVIDIA memperkenalkan pembukaan besar-besaran untuk efisiensi GPU: arsitektur penyimpanan AI khusus baru yang memperluas konteks/token yang diproses di HBM - dan sekarang dapat menumpahkan konteks ke penyimpanan NVMe bersama. Dengan menyimpan konteks dalam Cache KV, sistem inferensi menghindari biaya komputasi ulang konteks (untuk inferensi konteks besar), menurunkan waktu ke token pertama sebesar 20x atau lebih.
Apa yang tidak disadari orang adalah bahwa ini adalah generator data yang sama sekali baru - dan pasar tidak hanya membutuhkan pendekatan baru untuk kecepatan dan efisiensi penyimpanan, tetapi banyak laboratorium AI (yang diatur) masih membutuhkan kemampuan manajemen data perusahaan yang tidak dapat dikorbankan untuk kecepatan mentah.
NVIDIA menyebut ini Platform Penyimpanan Memori Konteks Inferensi (ICMS). Kami telah bekerja sama dengan mereka selama berminggu-minggu sekarang untuk memelopori cara baru untuk mengonfigurasi sistem VAST yang memberikan efisiensi tertinggi, dengan menyematkan logika inti sistem VAST langsung ke dalam mesin GPU BlueField DPU.
** 12x bukan lelucon. Saya melakukan perhitungan hari ini **
- Sistem VAST standar, yang dikonfigurasi secara minimal untuk NCP (NVIDIA Cloud Partner), memiliki sekitar 1,3 TB data per setiap GPU dalam klaster kelas GB200.
- Saat kami menambahkan infrastruktur tambahan untuk ekstensi memori konteks, GPU akan membutuhkan tambahan 16 TB saat kami melangkah ke era Vera Rubin. 12.3x.
Mengapa @VAST_Data , Anda mungkin bertanya?
1. arsitektur DASE paralel kami memungkinkan kami untuk menyematkan server VAST langsung ke setiap server BlueField. Ini tidak hanya mengurangi persyaratan infrastruktur vs. konfigurasi konvensional di mana server x86 terpisah dibagikan oleh klien GPU, tetapi juga mengubah paradigma klien:server dasar... di mana untuk pertama kalinya setiap mesin klien GPU sekarang memiliki server khusus mereka sendiri. Arsitektur paralel VAST yang dipisahkan, dibagikan-semuanya memungkinkan untuk menyematkan server di setiap klien tanpa memperkenalkan cross-talk di seluruh server VAST seperti yang akan terjadi pada teknologi penyimpanan lainnya.
Setiap server kemudian terhubung langsung ke semua SSD klaster, membutuhkan satu lompatan nol-salinan untuk masuk ke semua konteks bersama - sehingga mesin apa pun dapat mengambil konteks secara real-time. Efisiensi dan skala arsitektur ini belum pernah terjadi sebelumnya.
2. Meskipun kami bisa mendapatkan kinerja hebat dengan menghilangkan layanan data yang berjalan Di BlueField, arsitektur paralel kami yang memalukan memungkinkan kami untuk menggantung server tambahan dari fabric yang sama untuk menyediakan manajemen data perusahaan latar belakang opsional... menghadirkan kemampuan seperti perlindungan data, audit, enkripsi, dan pengurangan data KVCache hingga 2:1 ke klaster yang memiliki jalur data yang sangat efisien ke GPU.
Dengan VAST, laboratorium AI tidak perlu memilih...
Mereka bisa mendapatkan kinerja dan fitur manajemen data global yang mematikan.
Ruang ini berkembang saat ini... banyak ruang untuk diciptakan.
DM saya untuk bersama-sama mengembangkan masa depan sistem inferensi yang dipercepat bersama kami.



11
salah. hal-hal ini akan berhenti ada
Semua orang akan menggunakan implementasi yang dipesan lebih dahulu, adhoc, penuh bug, setengah dari apa yang diinginkan seseorang dengan selera

chase.skr📱12 jam lalu
Semua alat perangkat lunak/perpustakaan/api mulai sekarang akan memiliki lebih banyak pengguna AI daripada pengguna manusia.
16
Teratas
Peringkat
Favorit

