Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jeff Denworth
Бесстыдный промоутер, любитель музыки, гордый папа и счастливый муж. VASTronaut @VAST_data
В мгновение ока емкость хранения AI взрывается на 12,300% (см. математику ниже). На этой неделе NVIDIA представила огромное улучшение эффективности GPU: новую специализированную архитектуру хранения AI, которая расширяет контекст/токены, обрабатываемые в HBM, и теперь может передавать контекст в общую NVMe память. Сохраняя контекст в KV Cache, системы вывода избегают затрат на повторное вычисление контекста (для вывода с большим контекстом), снижая время до первого токена в 20 раз и более.
Что люди не понимают, так это то, что это совершенно новый генератор данных - и рынок нуждается не только в новом подходе к скорости и эффективности хранения, но и многим (регулируемым) AI лабораториям все еще потребуется возможность управления корпоративными данными, которую нельзя жертвовать ради сырой скорости.
NVIDIA называет это платформой Inference Context Memory Storage (ICMS). Мы работаем с ними уже несколько недель, чтобы создать новый способ настройки систем VAST, который обеспечивает максимальную эффективность, встраивая основную логику систем VAST непосредственно в DPU BlueField GPU.
**12x - это не шутка. Я сегодня сделал расчеты**
- Стандартная система VAST, минимально настроенная для NCP (NVIDIA Cloud Partner), имеет примерно 1.3TB данных на каждый GPU в кластере класса GB200.
- Когда мы добавим дополнительную инфраструктуру для расширения памяти контекста, GPU потребует дополнительно 16TB, когда мы вступим в эпоху Веры Рубин. 12.3x.
Почему @VAST_Data, вы можете спросить?
1. наша параллельная архитектура DASE позволяет нам встраивать серверы VAST непосредственно в каждый сервер BlueField. Это не только снижает требования к инфраструктуре по сравнению с обычными конфигурациями, где отдельные x86 серверы делились клиентами GPU, но также меняет основную парадигму клиент-сервер... когда впервые каждая машина клиента GPU теперь имеет свой собственный выделенный сервер. Параллельная архитектура VAST Disaggregated, Shared-Everything делает возможным встраивание серверов в каждый клиент без введения перекрестных помех между серверами VAST, как это было бы в случае с любой другой технологией хранения.
Каждый сервер затем подключается напрямую ко всем SSD кластера, требуя одного нулевого копирования, чтобы получить доступ ко всему общему контексту, так что любая машина может в реальном времени извлекать контекст. Эффективность и масштаб этой архитектуры беспрецедентны.
2. Хотя мы можем добиться отличной производительности, упрощая службы данных, которые работают в BlueField, наша смехотворно параллельная архитектура позволяет нам добавлять дополнительные серверы к той же сети, чтобы обеспечить дополнительное фоновое управление корпоративными данными... предоставляя такие возможности, как защита данных, аудит, шифрование и до 2:1 сокращение данных KVCache для кластера, который имеет ультра-оптимизированный путь данных к GPU.
С VAST лаборатории AI не должны выбирать...
Они могут получить производительность и потрясающие функции глобального управления данными.
Это пространство сейчас развивается... много места для изобретений.
Напишите мне в личные сообщения, чтобы совместно разработать будущее ускоренных систем вывода.



17
Топ
Рейтинг
Избранное
