В мгновение ока емкость хранения AI взрывается на 12,300% (см. математику ниже). На этой неделе NVIDIA представила огромное улучшение эффективности GPU: новую специализированную архитектуру хранения AI, которая расширяет контекст/токены, обрабатываемые в HBM, и теперь может передавать контекст в общую NVMe память. Сохраняя контекст в KV Cache, системы вывода избегают затрат на повторное вычисление контекста (для вывода с большим контекстом), снижая время до первого токена в 20 раз и более. Что люди не понимают, так это то, что это совершенно новый генератор данных - и рынок нуждается не только в новом подходе к скорости и эффективности хранения, но и многим (регулируемым) AI лабораториям все еще потребуется возможность управления корпоративными данными, которую нельзя жертвовать ради сырой скорости. NVIDIA называет это платформой Inference Context Memory Storage (ICMS). Мы работаем с ними уже несколько недель, чтобы создать новый способ настройки систем VAST, который обеспечивает максимальную эффективность, встраивая основную логику систем VAST непосредственно в DPU BlueField GPU. **12x - это не шутка. Я сегодня сделал расчеты** - Стандартная система VAST, минимально настроенная для NCP (NVIDIA Cloud Partner), имеет примерно 1.3TB данных на каждый GPU в кластере класса GB200. - Когда мы добавим дополнительную инфраструктуру для расширения памяти контекста, GPU потребует дополнительно 16TB, когда мы вступим в эпоху Веры Рубин. 12.3x. Почему @VAST_Data, вы можете спросить? 1. наша параллельная архитектура DASE позволяет нам встраивать серверы VAST непосредственно в каждый сервер BlueField. Это не только снижает требования к инфраструктуре по сравнению с обычными конфигурациями, где отдельные x86 серверы делились клиентами GPU, но также меняет основную парадигму клиент-сервер... когда впервые каждая машина клиента GPU теперь имеет свой собственный выделенный сервер. Параллельная архитектура VAST Disaggregated, Shared-Everything делает возможным встраивание серверов в каждый клиент без введения перекрестных помех между серверами VAST, как это было бы в случае с любой другой технологией хранения. Каждый сервер затем подключается напрямую ко всем SSD кластера, требуя одного нулевого копирования, чтобы получить доступ ко всему общему контексту, так что любая машина может в реальном времени извлекать контекст. Эффективность и масштаб этой архитектуры беспрецедентны. 2. Хотя мы можем добиться отличной производительности, упрощая службы данных, которые работают в BlueField, наша смехотворно параллельная архитектура позволяет нам добавлять дополнительные серверы к той же сети, чтобы обеспечить дополнительное фоновое управление корпоративными данными... предоставляя такие возможности, как защита данных, аудит, шифрование и до 2:1 сокращение данных KVCache для кластера, который имеет ультра-оптимизированный путь данных к GPU. С VAST лаборатории AI не должны выбирать... Они могут получить производительность и потрясающие функции глобального управления данными. Это пространство сейчас развивается... много места для изобретений. Напишите мне в личные сообщения, чтобы совместно разработать будущее ускоренных систем вывода.