DeepSeek-R1:s artikel uppdaterades för 2 dagar sedan, utökades från 22 sidor till 86 sidor och lade till en betydande mängd detaljer. Det nya innehållet täcker ämnen som självutvecklingen av DeepSeek-R1-Zero, utvärdering av DeepSeek-R1, vidare analys och destillation av DeepSeek-R1. DeepSeek-R1: Incitamentsförmåga att resonera i LLM:er via förstärkningsinlärning Papper: