新的有用性能功能:分區排序 創建一個性能底線,以優先考慮快速的 LLM,並且不會有延遲影響
您可以設置 `preferred_min_throughput` 和 `preferred_max_latency`。 與之前一樣,您也可以設置成本上限。
55