新的实用性能功能:分区排序 创建一个性能底线,以优先考虑快速的 LLM,且没有延迟影响
您可以设置 `preferred_min_throughput` 和 `preferred_max_latency`。 与之前一样,您还可以设置成本上限。
71