Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

trent.sol
75314b9c23e3ee03e79af1d0666746bc26fbcfa28572ac4a561aa591e1cc7f64
tài khoản mới vừa được phát hành

Jeff Denworth12:03 9 thg 1
Chỉ trong nháy mắt, dung lượng lưu trữ AI bùng nổ lên 12,300% (xem toán học bên dưới). Tuần này, NVIDIA đã giới thiệu một bước đột phá lớn về hiệu suất GPU: một kiến trúc lưu trữ AI chuyên biệt mới mở rộng ngữ cảnh/tokens được xử lý trong HBM - và giờ đây có thể tràn ngữ cảnh xuống lưu trữ NVMe chia sẻ. Bằng cách lưu ngữ ngữ cảnh trong KV Cache, các hệ thống suy diễn tránh được chi phí tái tính toán ngữ cảnh (đối với suy diễn ngữ cảnh lớn), giảm thời gian đến token đầu tiên xuống 20 lần hoặc hơn.
Điều mà mọi người không nhận ra là đây là một máy phát dữ liệu hoàn toàn mới - và không chỉ thị trường cần một cách tiếp cận mới về tốc độ và hiệu quả lưu trữ, mà nhiều phòng thí nghiệm AI (được quản lý) vẫn sẽ cần khả năng quản lý dữ liệu doanh nghiệp mà không thể hy sinh cho tốc độ thô.
NVIDIA gọi đây là Nền tảng Lưu trữ Ngữ cảnh Suy diễn (ICMS). Chúng tôi đã làm việc với họ trong nhiều tuần qua để tiên phong một cách mới để cấu hình các hệ thống VAST cung cấp hiệu quả tối ưu, bằng cách nhúng logic cốt lõi của các hệ thống VAST trực tiếp vào DPU BlueField của máy GPU.
**12x không phải là chuyện đùa. Tôi đã làm toán hôm nay**
- Một hệ thống VAST tiêu chuẩn, được cấu hình tối thiểu cho NCP (Đối tác Đám mây NVIDIA), có khoảng 1.3TB dữ liệu cho mỗi GPU trong một cụm lớp GB200.
- Khi chúng tôi thêm cơ sở hạ tầng bổ sung cho việc mở rộng bộ nhớ ngữ cảnh, các GPU sẽ yêu cầu thêm 16TB khi chúng tôi bước vào kỷ nguyên Vera Rubin. 12.3x.
Tại sao @VAST_Data, bạn có thể hỏi?
1. Kiến trúc DASE song song của chúng tôi cho phép chúng tôi nhúng các máy chủ VAST trực tiếp vào mỗi máy chủ BlueField. Điều này không chỉ giảm yêu cầu cơ sở hạ tầng so với các cấu hình thông thường, nơi các máy chủ x86 riêng biệt được chia sẻ bởi các khách hàng GPU, mà còn thay đổi mô hình khách hàng: máy chủ cơ bản... nơi lần đầu tiên mỗi máy khách GPU giờ đây có máy chủ riêng của mình. Kiến trúc Chia sẻ Mọi thứ, Phân tán song song của VAST làm cho việc nhúng máy chủ vào mỗi khách hàng trở nên khả thi mà không gây ra hiện tượng giao thoa giữa các máy chủ VAST như sẽ xảy ra với bất kỳ công nghệ lưu trữ nào khác.
Mỗi máy chủ sau đó kết nối trực tiếp với tất cả các SSD của cụm, yêu cầu một lần nhảy không sao chép để đến tất cả ngữ cảnh chia sẻ - vì vậy bất kỳ máy nào cũng có thể truy xuất ngữ cảnh trong thời gian thực. Hiệu quả và quy mô của kiến trúc này là chưa từng có.
2. Trong khi chúng tôi có thể đạt được hiệu suất tuyệt vời bằng cách giảm thiểu các dịch vụ dữ liệu chạy trên BlueField, kiến trúc song song đáng kinh ngạc của chúng tôi cho phép chúng tôi treo thêm các máy chủ khác trên cùng một mạng để cung cấp quản lý dữ liệu doanh nghiệp nền tảng tùy chọn... mang lại các khả năng như bảo vệ dữ liệu, kiểm toán, mã hóa và giảm dữ liệu KVCache lên đến 2:1 cho một cụm có đường dẫn dữ liệu siêu tinh gọn đến GPU.
Với VAST, các phòng thí nghiệm AI không phải chọn lựa...
Họ có thể có hiệu suất và các tính năng quản lý dữ liệu toàn cầu tuyệt vời.
Không gian này đang phát triển ngay bây giờ... còn nhiều chỗ để sáng tạo.
Gửi tin nhắn cho tôi để cùng phát triển tương lai của các hệ thống suy diễn tăng tốc với chúng tôi.



8
sai. những thứ này sẽ ngừng tồn tại
mọi người sẽ sử dụng những giải pháp tùy chỉnh, không chính thức, đầy lỗi, những triển khai nửa vời của những gì mà người có gu sẽ muốn

chase.skr📱12 giờ trước
Tất cả các công cụ/thư viện/api phần mềm từ đây trở đi sẽ có nhiều người dùng AI hơn người dùng con người.
13
Hàng đầu
Thứ hạng
Yêu thích

