Qwen2.5-7B-Instruct
文字生成
W4A16
post
Qwen2.5-7B-Instruct

Qwen2.5 是最新系列的 Qwen 大语言模型。Qwen2.5 版本发布了多个基础语言模型和指令微调语言模型,参数规模从 0.5B 到 72B 不等。相比 Qwen2,Qwen2.5 带来了以下改进:

  • 显著增强的知识储备,在 代码编写数学能力 方面表现出色,得益于我们在这些领域的专业专家模型。
  • 指令遵循长文本生成(超过 8K token)、结构化数据理解(如表格)和 结构化输出生成(特别是 JSON)方面有了显著提升。
  • 对不同系统提示词的适应性更强,提升了角色扮演实现和聊天机器人的条件设定能力。
  • 长上下文支持,可处理最多 128K token,并能生成最多 8K token 的文本。
  • 多语言支持,覆盖 29+ 种语言,包括:中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等
性能参考

设备

AI框架
数据精度
首字响应
编码速度
解码速度
上下文长度
文件大小
模型详情
  • 类型: 自回归语言模型
  • 训练阶段: 预训练 & 后训练
  • 架构: 基于 Transformer,采用 RoPE、SwiGLU、RMSNorm 和 Attention QKV 偏置
  • 参数数量: 7.61B
  • 非嵌入层参数数量: 6.53B
  • 层数: 28
  • 注意力头数 (GQA): Q 头数 28,KV 头数 4
  • 上下文长度: 全长 131,072 个 token,生成时支持 8192 个 token

更多详情,请访问Qwen的博客GitHub文档

源模型评估

注意:此表格显示的是源模型的评估,而非量化模型的评估。源模型评估来自于 Qwen2.5-7B-Instruct 评估结果

Qwen2.5-7B-Instruct Performance

Datasets Gemma2-9b-IT Llama3.1-8B-Instruct Qwen2-7B-Instruct Qwen2.5-7B-Instruct
MMLU-Pro 52.1 48.3 44.1 56.3
MMLU-redux 72.8 67.2 67.3 75.4
GPQA 32.8 32.8 34.3 36.4
MATH 44.3 51.9 52.9 75.5
GSM8K 76.7 84.5 85.7 91.6
HumanEval 68.9 72.6 79.9 84.8
MBPP 74.9 69.6 67.2 79.2
MultiPL-E 53.4 50.7 59.1 70.4
LiveCodeBench 2305-2409 18.9 8.3 23.9 28.7
LiveBench 0831 30.6 26.7 29.2 35.9
IFeval strict-prompt 70.1 75.9 54.7 71.2
Arena-Hard 41.6 27.8 25.0 52.0
AlignBench v1.1 7.05 4.75 7.13 7.33
MTbench 8.49 8.23 8.26 8.75
模型推理

待发布

许可证
源模型许可证:APACHE-2.0
可部署模型许可证:APLUX-MODEL-FARM-LICENSE
性能参考

设备

AI框架
数据精度
首字响应
编码速度
解码速度
上下文长度
文件大小