Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Num piscar de olhos, o armazenamento de IA explode em capacidade em 12.300% (veja a matemática abaixo). Esta semana, a NVIDIA introduziu um grande desbloqueio para a eficiência da GPU: uma nova arquitetura especializada de armazenamento por IA que estende o contexto/tokens processados no HBM – e agora pode transferir contexto para o armazenamento compartilhado do NVMe. Ao salvar o contexto em um KV Cache, os sistemas de inferência evitam o custo de recomputar o contexto (para grande inferência de contexto), reduzindo o tempo até o primeiro token em 20x ou mais.
O que as pessoas não percebem é que este é um gerador de dados totalmente novo – e não só o mercado precisa de uma nova abordagem para velocidade e eficiência de armazenamento, como muitos laboratórios de IA (regulados) ainda precisarão de uma capacidade de gerenciamento de dados corporativos, que não pode ser sacrificada pela velocidade bruta.
A NVIDIA chama isso de Plataforma de Armazenamento de Memória de Contexto por Inferência (ICMS). Estamos trabalhando com eles há semanas para inovar em uma nova forma de configurar sistemas VAST que oferece eficiência máxima, incorporando a lógica central dos sistemas VAST diretamente em uma máquina GPU, a BlueField DPU.
**O 12x não é brincadeira. Fiz as contas hoje **
- Um sistema VAST padrão, minimamente configurado para um NCP (NVIDIA Cloud Partner), possui aproximadamente 1,3TB de dados por GPU em um cluster classe GB200.
- Quando adicionarmos infraestrutura adicional para extensão de memória contextual, as GPUs exigirão mais 16TB ao entrarmos na era Vera Rubin. 12,3x.
Por que @VAST_Data, você pode perguntar?
1. nossa arquitetura paralela DASE nos permite incorporar servidores VAST diretamente em cada servidor BlueField. Isso não só reduz os requisitos de infraestrutura em comparação com configurações convencionais, onde servidores x86 separados eram compartilhados por clientes de GPU, como também altera o paradigma fundamental cliente:servidor... onde, pela primeira vez, cada máquina cliente de GPU agora tem seu próprio servidor dedicado. A arquitetura paralela Disaggregated, Shared-Everything do VAST possibilita incorporar servidores em cada cliente sem introduzir crosstalk entre servidores VAST, como aconteceria com qualquer outra tecnologia de armazenamento.
Cada servidor então se conecta diretamente a todos os SSDs do cluster, exigindo um único salto zero-copy para acessar todo o contexto compartilhado — para que qualquer máquina possa recuperar o contexto em tempo real. A eficiência e a escala dessa arquitetura são inéditas.
2. Embora possamos obter ótimo desempenho ao reduzir serviços de dados que rodam no BlueField, nossa arquitetura embaraçosamente paralela nos permite pendurar servidores adicionais no mesmo tecido para fornecer gerenciamento opcional de dados corporativos em segundo plano... trazendo capacidades como proteção de dados, auditoria, criptografia e até redução de dados KVCache 2:1 para um cluster que possui um caminho de dados ultra-simplificado até a GPU.
Com o VAST, os laboratórios de IA não precisam escolher...
Eles podem obter desempenho e recursos globais de gerenciamento de dados incríveis.
Esse espaço está evoluindo agora... Muito espaço para inventar.
Me mande uma mensagem privada para co-desenvolver o futuro dos sistemas de inferência acelerada conosco.



Melhores
Classificação
Favoritos
