Qwen1.5-0.5B-Chat

文字生成

W4A16

Qwen1.5-0.5B-Chat

Qwen1.5是Qwen2的测试版本，基于Transformer架构的解码器-only语言模型，经过大量数据预训练。与之前发布的Qwen相比，改进包括：

8个模型尺寸，包括0.5B、1.8B、4B、7B、14B、32B和72B的稠密模型，以及一个14B的MoE模型，激活了2.7B参数；
在聊天模型的人类偏好性能上有显著提升；
支持基础模型和聊天模型的多语言；
所有尺寸的模型都稳定支持32K的上下文长度；
不需要trust_remote_code。

有关更多细节，请参考博客文章和GitHub仓库。

性能参考

设备

AI框架

数据精度

首字响应

编码速度

解码速度

上下文长度

文件大小

模型详情

Qwen1.5是一个语言模型系列，包括不同尺寸的解码器语言模型。对于每个尺寸，Qwen1.5发布了基础语言模型和对齐的聊天模型。它基于Transformer架构，使用了SwiGLU激活函数、注意力QKV偏置、组查询注意力、滑动窗口注意力和全注意力的混合等。此外，我们还改进了适应多种自然语言和编程语言的分词器。对于测试版本，我们暂时未包括GQA（除了32B模型）和滑动窗口注意力与全注意力的混合。

源模型评估

注意：此表格显示的是源模型的评估，而非量化模型的评估。源模型评估来自于 Qwen1.5-0.5B-Chat 评估结果

Model	Non-Emb Params	MMLU	C-Eval	GSM8K	MATH	HumanEval	MBPP	BBH	CMMLU
Tinyllama-1.1B	1.1B	24.3	25.0	2.3	0.7	6.7	19.9	28.8	24.0
Gemini-Nano-3B	-	-	-	22.8	-	-	27.2	42.4	-
StableLM-Zephyr-3B	2.7B	45.9	30.3	52.5	12.5	35.4	31.9	37.7	30.9
Phi-2	2.5B	52.7	23.4	57.2	3.5	47.6	55.0	43.4	24.2
MiniCPM-2B	2.4B	53.5	51.1	53.8	10.2	50.0	47.3	36.9	51.1
Gemma-2B	2.0B	42.3	-	17.7	11.8	22.0	29.2	35.2	-
Qwen1.5-0.5B	0.3B	39.2	50.5	22.0	3.1	12.2	6.8	18.3	46.6
Qwen1.5-1.8B	1.2B	46.8	59.7	38.4	10.1	20.1	18.0	24.2	57.8
Qwen1.5-4B	3.1B	56.1	67.6	57.0	10.0	25.6	29.2	32.5	66.7
Qwen1.5-MoE-A2.7B	2.0B	62.5	79.2	61.5	21.9	34.2	36.6	39.1	79.2

模型推理

用户可以通过以下两种方式实现大模型在高通芯片上的推理运行：

通过 APLUX AidGen 推理大模型：请参考 APLUX AidGen 开发者文档
通过 QualComm Genie 推理大模型：请参考 Qualcomm Genie 文档

许可证

源模型许可证：APACHE-2.0

可部署模型许可证：APLUX-MODEL-FARM-LICENSE