Qwen1.5-7B-Chat
文字生成
W4A16

Qwen1.5-7B-Chat
性能参考
设备
AI框架
数据精度
首字响应
编码速度
解码速度
上下文长度
文件大小
模型详情
Qwen1.5是一个语言模型系列,包括不同尺寸的解码器语言模型。对于每个尺寸,Qwen1.5发布了基础语言模型和对齐的聊天模型。它基于Transformer架构,使用了SwiGLU激活函数、注意力QKV偏置、组查询注意力、滑动窗口注意力和全注意力的混合等。此外,我们还改进了适应多种自然语言和编程语言的分词器。对于测试版本,我们暂时未包括GQA(除了32B模型)和滑动窗口注意力与全注意力的混合。
源模型评估
注意:此表格显示的是源模型的评估,而非量化模型的评估。源模型评估来自于 Qwen1.5-7B-Chat 评估结果
Model | MMLU | C-Eval | GSM8K | MATH | HumanEval | MBPP | BBH | CMMLU |
---|---|---|---|---|---|---|---|---|
GPT-4 | 86.4 | 69.9 | 92.0 | 45.8 | 67.0 | 61.8 | 86.7 | 71.0 |
Llama2-7B | 46.8 | 32.5 | 16.7 | 3.3 | 12.8 | 20.8 | 38.2 | 31.8 |
Llama2-13B | 55.0 | 41.4 | 29.6 | 5.0 | 18.9 | 30.3 | 45.6 | 38.4 |
Llama2-34B | 62.6 | - | 42.2 | 6.2 | 22.6 | 33.0 | 44.1 | - |
Llama2-70B | 69.8 | 50.1 | 54.4 | 10.6 | 23.7 | 37.7 | 58.4 | 53.6 |
Mistral-7B | 64.1 | 47.4 | 47.5 | 11.3 | 27.4 | 38.6 | 56.7 | 44.7 |
Mixtral-8x7B | 70.6 | - | 74.4 | 28.4 | 40.2 | 60.7 | - | - |
Qwen1.5-7B | 61.0 | 74.1 | 62.5 | 20.3 | 36.0 | 37.4 | 40.2 | 73.1 |
Qwen1.5-14B | 67.6 | 78.7 | 70.1 | 29.2 | 37.8 | 44.0 | 53.7 | 77.6 |
Qwen1.5-32B | 73.4 | 83.5 | 77.4 | 36.1 | 37.2 | 49.4 | 66.8 | 82.3 |
Qwen1.5-72B | 77.5 | 84.1 | 79.5 | 34.1 | 41.5 | 53.4 | 65.5 | 83.5 |
模型推理
用户可以通过以下两种方式实现大模型在高通芯片上的推理运行:
- 通过 APLUX AidGen 推理大模型:请参考 APLUX AidGen 开发者文档
- 通过 QualComm Genie 推理大模型:请参考 Qualcomm Genie 文档
性能参考
设备
AI框架
数据精度
首字响应
编码速度
解码速度
上下文长度
文件大小