Qwen1.5-7B-Chat
文字生成
W4A16
post
Qwen1.5-7B-Chat

Qwen1.5是Qwen2的测试版本,基于Transformer架构的解码器-only语言模型,经过大量数据预训练。与之前发布的Qwen相比,改进包括:

  • 8个模型尺寸,包括0.5B、1.8B、4B、7B、14B、32B和72B的稠密模型,以及一个14B的MoE模型,激活了2.7B参数;
  • 在聊天模型的人类偏好性能上有显著提升;
  • 支持基础模型和聊天模型的多语言;
  • 所有尺寸的模型都稳定支持32K的上下文长度;
  • 不需要trust_remote_code

有关更多细节,请参考博客文章GitHub仓库

性能参考

设备

AI框架
数据精度
首字响应
编码速度
解码速度
上下文长度
文件大小
模型详情

Qwen1.5是一个语言模型系列,包括不同尺寸的解码器语言模型。对于每个尺寸,Qwen1.5发布了基础语言模型和对齐的聊天模型。它基于Transformer架构,使用了SwiGLU激活函数、注意力QKV偏置、组查询注意力、滑动窗口注意力和全注意力的混合等。此外,我们还改进了适应多种自然语言和编程语言的分词器。对于测试版本,我们暂时未包括GQA(除了32B模型)和滑动窗口注意力与全注意力的混合。

源模型评估

注意:此表格显示的是源模型的评估,而非量化模型的评估。源模型评估来自于 Qwen1.5-7B-Chat 评估结果

Model MMLU C-Eval GSM8K MATH HumanEval MBPP BBH CMMLU
GPT-4 86.4 69.9 92.0 45.8 67.0 61.8 86.7 71.0
Llama2-7B 46.8 32.5 16.7 3.3 12.8 20.8 38.2 31.8
Llama2-13B 55.0 41.4 29.6 5.0 18.9 30.3 45.6 38.4
Llama2-34B 62.6 - 42.2 6.2 22.6 33.0 44.1 -
Llama2-70B 69.8 50.1 54.4 10.6 23.7 37.7 58.4 53.6
Mistral-7B 64.1 47.4 47.5 11.3 27.4 38.6 56.7 44.7
Mixtral-8x7B 70.6 - 74.4 28.4 40.2 60.7 - -
Qwen1.5-7B 61.0 74.1 62.5 20.3 36.0 37.4 40.2 73.1
Qwen1.5-14B 67.6 78.7 70.1 29.2 37.8 44.0 53.7 77.6
Qwen1.5-32B 73.4 83.5 77.4 36.1 37.2 49.4 66.8 82.3
Qwen1.5-72B 77.5 84.1 79.5 34.1 41.5 53.4 65.5 83.5
模型推理

用户可以通过以下两种方式实现大模型在高通芯片上的推理运行:

许可证
源模型许可证:APACHE-2.0
可部署模型许可证:APLUX-MODEL-FARM-LICENSE
性能参考

设备

AI框架
数据精度
首字响应
编码速度
解码速度
上下文长度
文件大小