Tính năng hiệu suất mới, hữu ích: Sắp xếp phân vùng Tạo một nền tảng hiệu suất để ưu tiên các LLM nhanh, với độ trễ bằng không.
Bạn có thể đặt `preferred_min_throughput` và `preferred_max_latency`. Như trước đây, bạn cũng có thể đặt một giới hạn chi phí.
84