Qwen2.5-3B-Instruct
文字生成
W4A16

Qwen2.5-3B-Instruct
Qwen2.5 是最新系列的 Qwen 大语言模型。Qwen2.5 版本发布了多个基础语言模型和指令微调语言模型,参数规模从 0.5B 到 72B 不等。相比 Qwen2,Qwen2.5 带来了以下改进:
- 显著增强的知识储备,在 代码编写 和 数学能力 方面表现出色,得益于我们在这些领域的专业专家模型。
- 在 指令遵循、长文本生成(超过 8K token)、结构化数据理解(如表格)和 结构化输出生成(特别是 JSON)方面有了显著提升。
- 对不同系统提示词的适应性更强,提升了角色扮演实现和聊天机器人的条件设定能力。
- 长上下文支持,可处理最多 128K token,并能生成最多 8K token 的文本。
- 多语言支持,覆盖 29+ 种语言,包括:中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等
性能参考
设备
AI框架
数据精度
首字响应
编码速度
解码速度
上下文长度
文件大小
模型详情
源模型评估
注意:此表格显示的是源模型的评估,而非量化模型的评估。源模型评估来自于 Qwen2.5-3B-Instruct 评估结果
Datasets | Gemma2-2B-IT | Phi3.5-mini-Instruct | MiniCPM3-4B | Qwen2.5-3B-Instruct |
---|---|---|---|---|
Non-Emb Params | 2.0B | 3.6B | 4.0B | 2.8B |
MMLU-Pro | 26.7 | 47.5 | 43.0 | 43.7 |
MMLU-redux | 51.9 | 67.7 | 59.9 | 64.4 |
GPQA | 29.3 | 27.2 | 31.3 | 30.3 |
MATH | 26.6 | 48.5 | 46.6 | 65.9 |
GSM8K | 63.2 | 86.2 | 81.1 | 86.7 |
HumanEval | 68.9 | 72.6 | 74.4 | 74.4 |
MBPP | 74.9 | 63.2 | 72.5 | 72.7 |
MultiPL-E | 30.5 | 47.2 | 49.1 | 60.2 |
LiveCodeBench 2305-2409 | 5.8 | 15.8 | 23.8 | 19.9 |
LiveBench 0831 | 20.1 | 27.4 | 27.6 | 26.8 |
IFeval strict-prompt | 51.0 | 52.1 | 68.4 | 58.2 |
模型推理
待发布
性能参考
设备
AI框架
数据精度
首字响应
编码速度
解码速度
上下文长度
文件大小