Qwen2.5-7B-Instruct
文字生成
W4A16

Qwen2.5-7B-Instruct
Qwen2.5 是最新系列的 Qwen 大语言模型。Qwen2.5 版本发布了多个基础语言模型和指令微调语言模型,参数规模从 0.5B 到 72B 不等。相比 Qwen2,Qwen2.5 带来了以下改进:
- 显著增强的知识储备,在 代码编写 和 数学能力 方面表现出色,得益于我们在这些领域的专业专家模型。
- 在 指令遵循、长文本生成(超过 8K token)、结构化数据理解(如表格)和 结构化输出生成(特别是 JSON)方面有了显著提升。
- 对不同系统提示词的适应性更强,提升了角色扮演实现和聊天机器人的条件设定能力。
- 长上下文支持,可处理最多 128K token,并能生成最多 8K token 的文本。
- 多语言支持,覆盖 29+ 种语言,包括:中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等
性能参考
设备
AI框架
数据精度
首字响应
编码速度
解码速度
上下文长度
文件大小
模型详情
源模型评估
注意:此表格显示的是源模型的评估,而非量化模型的评估。源模型评估来自于 Qwen2.5-7B-Instruct 评估结果
Qwen2.5-7B-Instruct Performance
Datasets | Gemma2-9b-IT | Llama3.1-8B-Instruct | Qwen2-7B-Instruct | Qwen2.5-7B-Instruct |
---|---|---|---|---|
MMLU-Pro | 52.1 | 48.3 | 44.1 | 56.3 |
MMLU-redux | 72.8 | 67.2 | 67.3 | 75.4 |
GPQA | 32.8 | 32.8 | 34.3 | 36.4 |
MATH | 44.3 | 51.9 | 52.9 | 75.5 |
GSM8K | 76.7 | 84.5 | 85.7 | 91.6 |
HumanEval | 68.9 | 72.6 | 79.9 | 84.8 |
MBPP | 74.9 | 69.6 | 67.2 | 79.2 |
MultiPL-E | 53.4 | 50.7 | 59.1 | 70.4 |
LiveCodeBench 2305-2409 | 18.9 | 8.3 | 23.9 | 28.7 |
LiveBench 0831 | 30.6 | 26.7 | 29.2 | 35.9 |
IFeval strict-prompt | 70.1 | 75.9 | 54.7 | 71.2 |
Arena-Hard | 41.6 | 27.8 | 25.0 | 52.0 |
AlignBench v1.1 | 7.05 | 4.75 | 7.13 | 7.33 |
MTbench | 8.49 | 8.23 | 8.26 | 8.75 |
模型推理
待发布
性能参考
设备
AI框架
数据精度
首字响应
编码速度
解码速度
上下文长度
文件大小