Qwen1.5-7B-Chat

文字生成

W4A16

Qwen1.5-7B-Chat

Qwen1.5是Qwen2的测试版本，基于Transformer架构的解码器-only语言模型，经过大量数据预训练。与之前发布的Qwen相比，改进包括：

8个模型尺寸，包括0.5B、1.8B、4B、7B、14B、32B和72B的稠密模型，以及一个14B的MoE模型，激活了2.7B参数；
在聊天模型的人类偏好性能上有显著提升；
支持基础模型和聊天模型的多语言；
所有尺寸的模型都稳定支持32K的上下文长度；
不需要trust_remote_code。

有关更多细节，请参考博客文章和GitHub仓库。

性能参考

设备

AI框架

数据精度

首字响应

编码速度

解码速度

上下文长度

文件大小

模型详情

Qwen1.5是一个语言模型系列，包括不同尺寸的解码器语言模型。对于每个尺寸，Qwen1.5发布了基础语言模型和对齐的聊天模型。它基于Transformer架构，使用了SwiGLU激活函数、注意力QKV偏置、组查询注意力、滑动窗口注意力和全注意力的混合等。此外，我们还改进了适应多种自然语言和编程语言的分词器。对于测试版本，我们暂时未包括GQA（除了32B模型）和滑动窗口注意力与全注意力的混合。

源模型评估

注意：此表格显示的是源模型的评估，而非量化模型的评估。源模型评估来自于 Qwen1.5-7B-Chat 评估结果

Model	MMLU	C-Eval	GSM8K	MATH	HumanEval	MBPP	BBH	CMMLU
GPT-4	86.4	69.9	92.0	45.8	67.0	61.8	86.7	71.0
Llama2-7B	46.8	32.5	16.7	3.3	12.8	20.8	38.2	31.8
Llama2-13B	55.0	41.4	29.6	5.0	18.9	30.3	45.6	38.4
Llama2-34B	62.6	-	42.2	6.2	22.6	33.0	44.1	-
Llama2-70B	69.8	50.1	54.4	10.6	23.7	37.7	58.4	53.6
Mistral-7B	64.1	47.4	47.5	11.3	27.4	38.6	56.7	44.7
Mixtral-8x7B	70.6	-	74.4	28.4	40.2	60.7	-	-
Qwen1.5-7B	61.0	74.1	62.5	20.3	36.0	37.4	40.2	73.1
Qwen1.5-14B	67.6	78.7	70.1	29.2	37.8	44.0	53.7	77.6
Qwen1.5-32B	73.4	83.5	77.4	36.1	37.2	49.4	66.8	82.3
Qwen1.5-72B	77.5	84.1	79.5	34.1	41.5	53.4	65.5	83.5

模型推理

用户可以通过以下两种方式实现大模型在高通芯片上的推理运行：

通过 APLUX AidGen 推理大模型：请参考 APLUX AidGen 开发者文档
通过 QualComm Genie 推理大模型：请参考 Qualcomm Genie 文档

许可证

源模型许可证：APACHE-2.0

可部署模型许可证：APLUX-MODEL-FARM-LICENSE