Lucrarea DeepSeek-R1 a fost actualizată acum 2 zile, extinzându-se de la 22 de pagini la 86 de pagini și adăugând o cantitate substanțială de detalii. Noul conținut acoperă subiecte precum autoevoluția DeepSeek-R1-Zero, evaluarea DeepSeek-R1, analize suplimentare și distilarea DeepSeek-R1. DeepSeek-R1: Stimularea capacității de raționament în LLM-uri prin învățare prin întărire Hârtie: