以下是文档《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》的总结: ### 1. 研究背景与目标 DeepSeek-AI提出了第一代推理模型**DeepSeek-R1-Zero**和**DeepSeek-R1**,旨在通过**强化学习(RL)**提升大语言模型(LLMs)的推理能力,而无需依赖监督微调(SFT)。 ### 2. 核心方法 - **DeepSeek-R1-Zero**:直接在基础模型(DeepSeek-V3-Base)上应用大规模强化学习(GRPO算法),无需SFT数据。 - 通过RL自然涌现出强大的推理行为(如自我验证、反思、生成长推理链)。 - 在数学(AIME 2024)、编程(Codeforces)等任务上表现优异,但存在可读性差、语言混杂等问题。 - **DeepSeek-R1**:引入**多阶段训练**和**冷启动数据**优化RL流程: 1. 冷启动阶段:收集少量高质量长推理链数据微调基础模型。 2. 推理导向RL:结合规则奖励(准确性、格式)和语言一致性奖励。 3. 拒绝采样与SFT:从RL检查点生成数据,结合非推理任务(写作、问答等)微调模型。 4. 全场景RL:进一步对齐人类偏好(帮助性、无害性)。 ### 3. 关键成果 - **性能对标顶尖模型**: - DeepSeek-R1在数学(AIME 2024 Pass@1 79.8%)、编程(Codeforces超越96.3%人类)、知识问答(MMLU 90.8%)等任务上媲美OpenAI-o1-1217。 - DeepSeek-R1-Zero通过多数投票(cons@64)在AIME 2024达到86.7%,超越OpenAI-o1-0912。 - **蒸馏小型模型**: - 将DeepSeek-R1的推理能力蒸馏至Qwen/Llama系列(1.5B~70B),其中14B模型超越开源QwQ-32B-Preview,32B模型接近o1-mini性能。 ### 4. 失败尝试与局限 - **过程奖励模型(PRM)**:标注成本高且易出现奖励黑客问题。 - **蒙特卡洛树搜索(MCTS)**:搜索空间过大,难以迭代提升模型性能。 - 当前局限:语言混合(中英文)、提示词敏感性、工程任务(如代码生成)改进有限。 ### 5. 开源贡献 开源**DeepSeek-R1-Zero**、**DeepSeek-R1**及6个蒸馏模型(1.5B~70B),推动社区研究。 ### 6. 未来方向 - 提升通用能力(多轮对话、函数调用)。 - 优化多语言支持与提示词鲁棒性。 - 增强软件工程任务性能。 --- **总结**:DeepSeek-R1系列通过纯强化学习实现了接近SOTA的推理能力,并验证了蒸馏小型模型的可行性,为开源社区提供了高性能基础模型和训练方法论。