
DeepSeek推出了第一代推理模型——DeepSeek-R1-Zero和DeepSeek-R1。 DeepSeek-R1-Zero是一个通过大规模强化学习(RL)训练的模型,且没有经过监督微调(SFT)作为初步步骤,它在推理任务中展示了出色的性能。 通过强化学习,DeepSeek-R1-Zero自然地展现出了许多强大且有趣的推理行为。 然而,DeepSeek-R1-Zero也面临一些挑战,例如无休止的重复、可读性差和语言混合等问题。为了解决这些问题并进一步提升推理性能,DeepSeek推出了DeepSeek-R1,这款模型在强化学习之前加入了冷启动数据。 DeepSeek-R1在数学、代码和推理任务上达到了与OpenAI-o1相当的性能。 为了支持研究社区,DeepSeek已经开源了DeepSeek-R1-Zero、DeepSeek-R1以及基于Llama和Qwen提炼的六个密集模型。DeepSeek-R1-Distill-Qwen-32B在多个基准测试中优于OpenAI-o1-mini,创造了新的密集模型领域的最新成果。
欲了解更多详细信息,请参考DeepSeek的Hugging Face页面
后训练:在基础模型上进行大规模强化学习
DeepSeek直接将强化学习(RL)应用于基础模型,而不依赖于监督微调(SFT)作为初步步骤。这种方法使模型能够探索链式思维(CoT)来解决复杂问题,从而开发出了DeepSeek-R1-Zero。DeepSeek-R1-Zero展示了自我验证、反思和生成长链式思维等能力,标志着研究社区的重要里程碑。值得注意的是,这是首次通过RL验证LLM的推理能力可以仅通过RL激励实现,而无需SFT。这一突破为该领域未来的进展铺平了道路。
DeepSeek推出了一个开发DeepSeek-R1的流程。该流程包含两个RL阶段,旨在发现改进的推理模式并与人类偏好对齐,以及两个SFT阶段作为模型推理与非推理能力的种子。DeepSeek相信,这一流程将通过创造更好的模型,推动行业的发展。
蒸馏:较小的模型也能强大
- DeepSeek展示了较大模型的推理模式可以被蒸馏到较小模型中,从而在与通过RL发现的较小模型推理模式进行比较时,表现出更好的性能。开源的DeepSeek-R1及其API将有助于研究社区未来蒸馏出更优秀的小模型。
- 利用DeepSeek-R1生成的推理数据,DeepSeek对多个在研究界广泛使用的密集模型进行了微调。评估结果表明,蒸馏后较小的密集模型在基准测试中表现优异。DeepSeek已开源基于Qwen2.5和Llama3系列的1.5B、7B、8B、14B、32B和70B检查点,供社区使用。
蒸馏模型评估
注意:此表展示的是源模型的评估,而非量化模型的评估。源模型评估参考自 DeepSeek-R1-Distill-Qwen-1.5B 评估结果
Model | AIME 2024 pass@1 | AIME 2024 cons@64 | MATH-500 pass@1 | GPQA Diamond pass@1 | LiveCodeBench pass@1 | CodeForces rating |
---|---|---|---|---|---|---|
GPT-4o-0513 | 9.3 | 13.4 | 74.6 | 49.9 | 32.9 | 759 |
Claude-3.5-Sonnet-1022 | 16.0 | 26.7 | 78.3 | 65.0 | 38.9 | 717 |
o1-mini | 63.6 | 80.0 | 90.0 | 60.0 | 53.8 | 1820 |
QwQ-32B-Preview | 44.0 | 60.0 | 90.6 | 54.5 | 41.9 | 1316 |
DeepSeek-R1-Distill-Qwen-1.5B | 28.9 | 52.7 | 83.9 | 33.8 | 16.9 | 954 |
DeepSeek-R1-Distill-Qwen-7B | 55.5 | 83.3 | 92.8 | 49.1 | 37.6 | 1189 |
DeepSeek-R1-Distill-Qwen-14B | 69.7 | 80.0 | 93.9 | 59.1 | 53.1 | 1481 |
DeepSeek-R1-Distill-Qwen-32B | 72.6 | 83.3 | 94.3 | 62.1 | 57.2 | 1691 |
DeepSeek-R1-Distill-Llama-8B | 50.4 | 80.0 | 89.1 | 49.0 | 39.6 | 1205 |
DeepSeek-R1-Distill-Llama-70B | 70.0 | 86.7 | 94.5 | 65.2 | 57.5 | 1633 |
待发布