人們似乎奇怪地擔心某一模型會主導編程。即使只是編程,也需要多個模型! 試著使用 GPT-5.2 xhigh 來審查 Opus PR,反之亦然。這比... Opus 審查 Opus 明顯好得多。 使用同一模型家族來審查 PR 永遠不會像使用不同家族那樣好。 (而改變代理 harness 是不夠的 - 這對模型來說太薄弱了。)
對於 @OpenRouterAI,任何由 Opus 撰寫的 PR 都會獲得來自 GPT-5 Codex 的跨模型審查。 超過 20% 的 PR 中有 Codex 的評論被我們明確承認並修正。
81