一瞬のうちに、AIストレージの容量は12,300%も爆発的に増加します(下記の計算参照)。今週、NVIDIAはGPU効率に大きなアンロックを導入しました。それは、HBMで処理されるコンテキストやトークンを拡張し、コンテキストを共有NVMeストレージに流し込むことができる新しい専門的なAIストレージアーキテクチャです。KVキャッシュにコンテキストを保存することで、推論システムは大規模なコンテキスト推論におけるコンテキスト再計算コストを回避し、最初のトークン取得までの時間を20倍以上短縮します。 しかし、多くの人が気づいていないのは、これはまったく新しいデータ生成装置であり、市場はストレージの速度と効率に新しいアプローチを必要としているだけでなく、多くの(規制対象の)AIラボでは、生の速度のために犠牲にできないエンタープライズデータ管理能力が依然として必要だということです。 NVIDIAはこれを推論コンテキストメモリストレージ(ICMS)プラットフォームと呼んでいます。私たちは数週間にわたり、VASTシステムのコアロジックをGPUマシンのBlueField DPUに直接組み込むことで、究極の効率を実現する新しい構成方法を開発してきました。 **12xは冗談じゃない。今日計算してみました ** - 標準的なVASTシステムは、NCP(NVIDIA Cloud Partner)向けに最小限に設定され、GB200クラスクラスタのGPUあたり約1.3TBのデータを持ちます。 - コンテキストメモリ拡張のための追加インフラを追加すると、Vera Rubin時代に入り、GPUはさらに16TBを必要とします。12.3倍。 なぜ@VAST_Dataのか、と疑問に思うかもしれません。 1. 並列DASEアーキテクチャにより、各BlueFieldサーバーに直接VASTサーバーを組み込むことができます。これにより、従来のx86サーバーがGPUクライアントで共有されていた構成に比べてインフラ要件が軽減されるだけでなく、クライアント:サーバーの基本的なパラダイムも変えています...これにより、初めてすべてのGPUクライアントマシンが専用サーバーを持つことになりました。VASTの並列分解・共有アーキテクチャにより、他のストレージ技術とは異なり、VASTサーバー間でクロストークが発生することなく、各クライアントにサーバーを埋め込むことが可能です。 各サーバーはクラスター内のすべてのSSDに直接接続し、すべての共有コンテキストにアクセスするために単一のゼロコピーホップでアクセスできるため、どのマシンでもリアルタイムでコンテキストを取得できます。このアーキテクチャの効率性と規模は前例のないものです。 2. BlueFieldで動作するデータサービスを簡素化すれば優れたパフォーマンスが得られますが、恥ずかしいほど並列なアーキテクチャにより、追加のサーバーを同じファブリックに掛けて、オプションのバックグラウンド企業データ管理を提供できます...データ保護、監査、暗号化、最大2:1のKVCacheデータ削減などの機能が、GPUへの超効率的なデータパスを持つクラスターに導入されます。 VASTがあれば、AIラボは... パフォーマンスや優れたグローバルデータ管理機能を備えることができます。 この分野は今まさに進化しています...発明の余地はたくさんあります。 加速推論システムの未来を共に開発したい方はDMしてください。