En un abrir y cerrar de ojos, el almacenamiento de IA explota en capacidad un 12,300% (ver matemáticas abajo). Esta semana, NVIDIA presentó un desbloqueo masivo de la eficiencia de la GPU: una nueva arquitectura de almacenamiento de IA especializada que extiende el contexto/tokens que se procesan en HBM - y ahora puede derramar contexto en el almacenamiento NVMe compartido. Al guardar contexto en un KV Cache, los sistemas de inferencia evitan el costo de recomputar el contexto (para inferencias de gran contexto), reduciendo el tiempo hasta el primer token en 20 veces o más. Lo que la gente no se da cuenta es que este es un generador de datos completamente nuevo - y no solo el mercado necesita un nuevo enfoque para la velocidad y eficiencia del almacenamiento, sino que muchos laboratorios de IA (regulados) aún necesitarán capacidad de gestión de datos empresariales que no puede ser sacrificada por velocidad bruta. NVIDIA llama a esto Plataforma de Almacenamiento de Memoria de Contexto de Inferencia (ICMS). Hemos estado trabajando con ellos durante semanas para pionear una nueva forma de configurar sistemas VAST que proporciona la máxima eficiencia, al incrustar la lógica central de los sistemas VAST directamente en una máquina GPU BlueField DPU. **El 12x no es una broma. Hice los cálculos hoy ** - Un sistema VAST estándar, configurado mínimamente para un NCP (Socio de Nube de NVIDIA), tiene aproximadamente 1.3TB de datos por cada GPU en un clúster de clase GB200. - Cuando añadimos infraestructura adicional para la extensión de memoria de contexto, las GPUs requerirán 16TB adicionales a medida que avancemos hacia la era de Vera Rubin. 12.3x. ¿Por qué @VAST_Data, podrías preguntar? 1. nuestra arquitectura DASE paralela nos permite incrustar servidores VAST directamente en cada servidor BlueField. Esto no solo reduce los requisitos de infraestructura en comparación con configuraciones convencionales donde servidores x86 separados eran compartidos por clientes de GPU, sino que también cambia el paradigma fundamental cliente:servidor... donde por primera vez cada máquina cliente de GPU ahora tiene su propio servidor dedicado. La arquitectura paralela Desagregada y Compartida de VAST hace posible incrustar servidores en cada cliente sin introducir interferencias entre servidores VAST como sería el caso para cualquier otra tecnología de almacenamiento. Cada servidor se conecta directamente a todos los SSD del clúster, requiriendo un único salto de cero-copia para llegar a todo el contexto compartido, por lo que cualquier máquina puede recuperar contexto en tiempo real. La eficiencia y escala de esta arquitectura es sin precedentes. 2. Mientras podemos obtener un gran rendimiento al reducir los servicios de datos que funcionan en BlueField, nuestra arquitectura embarrassingly-parallel nos permite añadir servidores adicionales en la misma red para proporcionar gestión de datos empresariales opcional en segundo plano... trayendo capacidades como protección de datos, auditoría, cifrado y hasta una reducción de datos KVCache de 2:1 a un clúster que tiene una ruta de datos ultra-optimizada hacia la GPU. Con VAST, los laboratorios de IA no tienen que elegir... Pueden obtener rendimiento y características de gestión de datos globales impresionantes. Este espacio está evolucionando ahora mismo... hay mucho espacio para inventar. Envíame un DM para co-desarrollar el futuro de los sistemas de inferencia acelerada con nosotros.