DeepSeek-R1s artikkel ble oppdatert for 2 dager siden, utvidet fra 22 sider til 86 sider og lagt til en betydelig mengde detaljer. Det nye innholdet dekker temaer som selvutvikling av DeepSeek-R1-Zero, evaluering av DeepSeek-R1, videre analyse og destillasjon av DeepSeek-R1. DeepSeek-R1: Incentivering av resonnement i LLM-er via forsterkningslæring Artikkel: