DeepSeek-R1-Distill-Qwen-1.5B

文字生成

W4A16

DeepSeek推出了第一代推理模型——DeepSeek-R1-Zero和DeepSeek-R1。 DeepSeek-R1-Zero是一个通过大规模强化学习（RL）训练的模型，且没有经过监督微调（SFT）作为初步步骤，它在推理任务中展示了出色的性能。通过强化学习，DeepSeek-R1-Zero自然地展现出了许多强大且有趣的推理行为。然而，DeepSeek-R1-Zero也面临一些挑战，例如无休止的重复、可读性差和语言混合等问题。为了解决这些问题并进一步提升推理性能，DeepSeek推出了DeepSeek-R1，这款模型在强化学习之前加入了冷启动数据。 DeepSeek-R1在数学、代码和推理任务上达到了与OpenAI-o1相当的性能。为了支持研究社区，DeepSeek已经开源了DeepSeek-R1-Zero、DeepSeek-R1以及基于Llama和Qwen提炼的六个密集模型。DeepSeek-R1-Distill-Qwen-32B在多个基准测试中优于OpenAI-o1-mini，创造了新的密集模型领域的最新成果。

欲了解更多详细信息，请参考DeepSeek的Hugging Face页面

性能参考

设备

AI框架

数据精度

首字响应

编码速度

解码速度

上下文长度

文件大小

模型详情

后训练：在基础模型上进行大规模强化学习

DeepSeek直接将强化学习（RL）应用于基础模型，而不依赖于监督微调（SFT）作为初步步骤。这种方法使模型能够探索链式思维（CoT）来解决复杂问题，从而开发出了DeepSeek-R1-Zero。DeepSeek-R1-Zero展示了自我验证、反思和生成长链式思维等能力，标志着研究社区的重要里程碑。值得注意的是，这是首次通过RL验证LLM的推理能力可以仅通过RL激励实现，而无需SFT。这一突破为该领域未来的进展铺平了道路。
DeepSeek推出了一个开发DeepSeek-R1的流程。该流程包含两个RL阶段，旨在发现改进的推理模式并与人类偏好对齐，以及两个SFT阶段作为模型推理与非推理能力的种子。DeepSeek相信，这一流程将通过创造更好的模型，推动行业的发展。

蒸馏：较小的模型也能强大

DeepSeek展示了较大模型的推理模式可以被蒸馏到较小模型中，从而在与通过RL发现的较小模型推理模式进行比较时，表现出更好的性能。开源的DeepSeek-R1及其API将有助于研究社区未来蒸馏出更优秀的小模型。
利用DeepSeek-R1生成的推理数据，DeepSeek对多个在研究界广泛使用的密集模型进行了微调。评估结果表明，蒸馏后较小的密集模型在基准测试中表现优异。DeepSeek已开源基于Qwen2.5和Llama3系列的1.5B、7B、8B、14B、32B和70B检查点，供社区使用。

源模型评估

蒸馏模型评估

注意：此表展示的是源模型的评估，而非量化模型的评估。源模型评估参考自 DeepSeek-R1-Distill-Qwen-1.5B 评估结果

Model	AIME 2024 pass@1	AIME 2024 cons@64	MATH-500 pass@1	GPQA Diamond pass@1	LiveCodeBench pass@1	CodeForces rating
GPT-4o-0513	9.3	13.4	74.6	49.9	32.9	759
Claude-3.5-Sonnet-1022	16.0	26.7	78.3	65.0	38.9	717
o1-mini	63.6	80.0	90.0	60.0	53.8	1820
QwQ-32B-Preview	44.0	60.0	90.6	54.5	41.9	1316
DeepSeek-R1-Distill-Qwen-1.5B	28.9	52.7	83.9	33.8	16.9	954
DeepSeek-R1-Distill-Qwen-7B	55.5	83.3	92.8	49.1	37.6	1189
DeepSeek-R1-Distill-Qwen-14B	69.7	80.0	93.9	59.1	53.1	1481
DeepSeek-R1-Distill-Qwen-32B	72.6	83.3	94.3	62.1	57.2	1691
DeepSeek-R1-Distill-Llama-8B	50.4	80.0	89.1	49.0	39.6	1205
DeepSeek-R1-Distill-Llama-70B	70.0	86.7	94.5	65.2	57.5	1633

模型推理

待发布

许可证

源模型许可证：MIT

可部署模型许可证：APLUX-MODEL-FARM-LICENSE