Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
En un abrir y cerrar de ojos, el almacenamiento de IA se dispara en capacidad en un 12.300% (ver matemáticas más abajo). Esta semana, NVIDIA ha presentado un gran desbloqueo para la eficiencia de las GPU: una nueva arquitectura especializada de almacenamiento por IA que extiende el contexto/tokens procesados en HBM, y que ahora puede transmitir contexto a almacenamiento compartido de NVMe. Al guardar el contexto en una caché KV, los sistemas de inferencia evitan el coste de recomputar el contexto (para inferencia de contexto grande), reduciendo el tiempo hasta el primer token en 20 veces o más.
Lo que la gente no sabe es que se trata de un generador de datos completamente nuevo, y no solo el mercado necesita un nuevo enfoque para la velocidad y eficiencia del almacenamiento, sino que muchos laboratorios de IA (regulados) seguirán necesitando capacidad de gestión de datos empresariales que no puede sacrificarse por la velocidad pura.
NVIDIA llama a esta Plataforma de Almacenamiento de Memoria de Contexto de Inferencia (ICMS). Llevamos semanas trabajando con ellos para ser pioneros en una nueva forma de configurar sistemas VAST que proporcione la máxima eficiencia, integrando la lógica central de los sistemas VAST directamente en la BlueField DPU de una máquina GPU.
**El 12x no es ninguna broma. Hoy hice los cálculos **
- Un sistema VAST estándar, configurado mínimamente para un NCP (NVIDIA Cloud Partner), tiene aproximadamente 1,3TB de datos por cada GPU en un clúster de clase GB200.
- Cuando añadimos infraestructura adicional para la extensión de la memoria contextual, las GPUs requerirán 16TB adicionales al entrar en la era Vera Rubin. 12,3x.
¿Por qué @VAST_Data, te preguntarás?
1. nuestra arquitectura paralela DASE nos permite integrar servidores VAST directamente en cada servidor BlueField. Esto no solo reduce los requisitos de infraestructura frente a configuraciones convencionales donde los servidores x86 eran compartidos por clientes GPU, sino que también cambia el paradigma fundamentalista cliente:servidor... donde por primera vez cada máquina cliente de GPU tiene ahora su propio servidor dedicado. La arquitectura paralela Disaggregated, Shared-Everything de VAST permite incrustar servidores en cada cliente sin introducir interferencias entre servidores VAST, como ocurriría con cualquier otra tecnología de almacenamiento.
Cada servidor se conecta directamente a todos los SSD del clúster, requiriendo un único salto de copia cero para acceder a todo el contexto compartido, de modo que cualquier máquina pueda recuperar el contexto en tiempo real. La eficiencia y escala de esta arquitectura es sin precedentes.
2. Aunque podemos obtener un gran rendimiento despojando servicios de datos que ejecutan In BlueField, nuestra arquitectura vergonzosamente paralela nos permite colgar servidores adicionales del mismo tejido para ofrecer gestión opcional de datos empresariales en segundo plano... trayendo capacidades como protección de datos, auditoría, cifrado y hasta reducción de datos KVCache 2:1 a un clúster con una ruta de datos ultra-optimizada hacia la GPU.
Con VAST, los laboratorios de IA no tienen que elegir...
Pueden obtener funciones de rendimiento y de gestión global de datos impresionantes.
Este espacio está evolucionando ahora mismo... Mucho espacio para inventar.
Mándame un mensaje privado para co-desarrollar con nosotros el futuro de los sistemas de inferencia acelerada.



Populares
Ranking
Favoritas
