DeepSeek-R1-Distill-Qwen-1.5B
文字生成
W4A16
post
DeepSeek-R1-Distill-Qwen-1.5B

DeepSeek推出了第一代推理模型——DeepSeek-R1-Zero和DeepSeek-R1。 DeepSeek-R1-Zero是一个通过大规模强化学习(RL)训练的模型,且没有经过监督微调(SFT)作为初步步骤,它在推理任务中展示了出色的性能。 通过强化学习,DeepSeek-R1-Zero自然地展现出了许多强大且有趣的推理行为。 然而,DeepSeek-R1-Zero也面临一些挑战,例如无休止的重复、可读性差和语言混合等问题。为了解决这些问题并进一步提升推理性能,DeepSeek推出了DeepSeek-R1,这款模型在强化学习之前加入了冷启动数据。 DeepSeek-R1在数学、代码和推理任务上达到了与OpenAI-o1相当的性能。 为了支持研究社区,DeepSeek已经开源了DeepSeek-R1-Zero、DeepSeek-R1以及基于Llama和Qwen提炼的六个密集模型。DeepSeek-R1-Distill-Qwen-32B在多个基准测试中优于OpenAI-o1-mini,创造了新的密集模型领域的最新成果。

欲了解更多详细信息,请参考DeepSeek的Hugging Face页面

性能参考

设备

AI框架
精度
首字响应
编码速度
解码速度
上下文长度
文件大小
模型详情

后训练:在基础模型上进行大规模强化学习

  • DeepSeek直接将强化学习(RL)应用于基础模型,而不依赖于监督微调(SFT)作为初步步骤。这种方法使模型能够探索链式思维(CoT)来解决复杂问题,从而开发出了DeepSeek-R1-Zero。DeepSeek-R1-Zero展示了自我验证、反思和生成长链式思维等能力,标志着研究社区的重要里程碑。值得注意的是,这是首次通过RL验证LLM的推理能力可以仅通过RL激励实现,而无需SFT。这一突破为该领域未来的进展铺平了道路。

  • DeepSeek推出了一个开发DeepSeek-R1的流程。该流程包含两个RL阶段,旨在发现改进的推理模式并与人类偏好对齐,以及两个SFT阶段作为模型推理与非推理能力的种子。DeepSeek相信,这一流程将通过创造更好的模型,推动行业的发展。


蒸馏:较小的模型也能强大

  • DeepSeek展示了较大模型的推理模式可以被蒸馏到较小模型中,从而在与通过RL发现的较小模型推理模式进行比较时,表现出更好的性能。开源的DeepSeek-R1及其API将有助于研究社区未来蒸馏出更优秀的小模型。
  • 利用DeepSeek-R1生成的推理数据,DeepSeek对多个在研究界广泛使用的密集模型进行了微调。评估结果表明,蒸馏后较小的密集模型在基准测试中表现优异。DeepSeek已开源基于Qwen2.5和Llama3系列的1.5B、7B、8B、14B、32B和70B检查点,供社区使用。
源模型评估

蒸馏模型评估

注意:此表展示的是源模型的评估,而非量化模型的评估。源模型评估参考自 DeepSeek-R1-Distill-Qwen-1.5B 评估结果

Model AIME 2024 pass@1 AIME 2024 cons@64 MATH-500 pass@1 GPQA Diamond pass@1 LiveCodeBench pass@1 CodeForces rating
GPT-4o-0513 9.3 13.4 74.6 49.9 32.9 759
Claude-3.5-Sonnet-1022 16.0 26.7 78.3 65.0 38.9 717
o1-mini 63.6 80.0 90.0 60.0 53.8 1820
QwQ-32B-Preview 44.0 60.0 90.6 54.5 41.9 1316
DeepSeek-R1-Distill-Qwen-1.5B 28.9 52.7 83.9 33.8 16.9 954
DeepSeek-R1-Distill-Qwen-7B 55.5 83.3 92.8 49.1 37.6 1189
DeepSeek-R1-Distill-Qwen-14B 69.7 80.0 93.9 59.1 53.1 1481
DeepSeek-R1-Distill-Qwen-32B 72.6 83.3 94.3 62.1 57.2 1691
DeepSeek-R1-Distill-Llama-8B 50.4 80.0 89.1 49.0 39.6 1205
DeepSeek-R1-Distill-Llama-70B 70.0 86.7 94.5 65.2 57.5 1633
AidLite SDK推理

待发布

性能参考

设备

AI框架
精度
首字响应
编码速度
解码速度
上下文长度
文件大小