Makalah DeepSeek-R1 diperbarui 2 hari yang lalu, diperluas dari 22 halaman menjadi 86 halaman dan menambahkan sejumlah besar detail. Konten baru mencakup topik-topik seperti evolusi diri DeepSeek-R1-Zero, evaluasi DeepSeek-R1, analisis lebih lanjut, dan distilasi DeepSeek-R1. DeepSeek-R1: Memberi Insentif Kemampuan Penalaran di LLM melalui Pembelajaran Penguatan Kertas: