Funcționalitate nouă și utilă de performanță: Sortarea partițiilor Creează un nivel minim de performanță pentru a prioritiza LLM-urile rapide, fără niciun impact de latență
Poți seta "preferred_min_throughput" și "preferred_max_latency". Ca și înainte, poți seta și un plafon de costuri.
82