Qwen1.5-0.5B-Chat
文字生成
W4A16

Qwen1.5-0.5B-Chat
性能参考
设备
AI框架
数据精度
首字响应
编码速度
解码速度
上下文长度
文件大小
模型详情
Qwen1.5是一个语言模型系列,包括不同尺寸的解码器语言模型。对于每个尺寸,Qwen1.5发布了基础语言模型和对齐的聊天模型。它基于Transformer架构,使用了SwiGLU激活函数、注意力QKV偏置、组查询注意力、滑动窗口注意力和全注意力的混合等。此外,我们还改进了适应多种自然语言和编程语言的分词器。对于测试版本,我们暂时未包括GQA(除了32B模型)和滑动窗口注意力与全注意力的混合。
源模型评估
注意:此表格显示的是源模型的评估,而非量化模型的评估。源模型评估来自于 Qwen1.5-0.5B-Chat 评估结果
Model | Non-Emb Params | MMLU | C-Eval | GSM8K | MATH | HumanEval | MBPP | BBH | CMMLU |
---|---|---|---|---|---|---|---|---|---|
Tinyllama-1.1B | 1.1B | 24.3 | 25.0 | 2.3 | 0.7 | 6.7 | 19.9 | 28.8 | 24.0 |
Gemini-Nano-3B | - | - | - | 22.8 | - | - | 27.2 | 42.4 | - |
StableLM-Zephyr-3B | 2.7B | 45.9 | 30.3 | 52.5 | 12.5 | 35.4 | 31.9 | 37.7 | 30.9 |
Phi-2 | 2.5B | 52.7 | 23.4 | 57.2 | 3.5 | 47.6 | 55.0 | 43.4 | 24.2 |
MiniCPM-2B | 2.4B | 53.5 | 51.1 | 53.8 | 10.2 | 50.0 | 47.3 | 36.9 | 51.1 |
Gemma-2B | 2.0B | 42.3 | - | 17.7 | 11.8 | 22.0 | 29.2 | 35.2 | - |
Qwen1.5-0.5B | 0.3B | 39.2 | 50.5 | 22.0 | 3.1 | 12.2 | 6.8 | 18.3 | 46.6 |
Qwen1.5-1.8B | 1.2B | 46.8 | 59.7 | 38.4 | 10.1 | 20.1 | 18.0 | 24.2 | 57.8 |
Qwen1.5-4B | 3.1B | 56.1 | 67.6 | 57.0 | 10.0 | 25.6 | 29.2 | 32.5 | 66.7 |
Qwen1.5-MoE-A2.7B | 2.0B | 62.5 | 79.2 | 61.5 | 21.9 | 34.2 | 36.6 | 39.1 | 79.2 |
模型推理
用户可以通过以下两种方式实现大模型在高通芯片上的推理运行:
- 通过 APLUX AidGen 推理大模型:请参考 APLUX AidGen 开发者文档
- 通过 QualComm Genie 推理大模型:请参考 Qualcomm Genie 文档
性能参考
设备
AI框架
数据精度
首字响应
编码速度
解码速度
上下文长度
文件大小