Qwen1.5-1.8B-Chat
文字生成
W4A16
post
Qwen1.5-1.8B-Chat

Qwen1.5是Qwen2的测试版本,基于Transformer架构的解码器-only语言模型,经过大量数据预训练。与之前发布的Qwen相比,改进包括:

  • 8个模型尺寸,包括0.5B、1.8B、4B、7B、14B、32B和72B的稠密模型,以及一个14B的MoE模型,激活了2.7B参数;
  • 在聊天模型的人类偏好性能上有显著提升;
  • 支持基础模型和聊天模型的多语言;
  • 所有尺寸的模型都稳定支持32K的上下文长度;
  • 不需要trust_remote_code

有关更多细节,请参考博客文章GitHub仓库

性能参考

设备

AI框架
数据精度
首字响应
编码速度
解码速度
上下文长度
文件大小
模型详情

Qwen1.5是一个语言模型系列,包括不同尺寸的解码器语言模型。对于每个尺寸,Qwen1.5发布了基础语言模型和对齐的聊天模型。它基于Transformer架构,使用了SwiGLU激活函数、注意力QKV偏置、组查询注意力、滑动窗口注意力和全注意力的混合等。此外,我们还改进了适应多种自然语言和编程语言的分词器。对于测试版本,我们暂时未包括GQA(除了32B模型)和滑动窗口注意力与全注意力的混合。

源模型评估

注意:此表格显示的是源模型的评估,而非量化模型的评估。源模型评估来自于 Qwen1.5-1.8B-Chat 评估结果

Model Non-Emb Params MMLU C-Eval GSM8K MATH HumanEval MBPP BBH CMMLU
Tinyllama-1.1B 1.1B 24.3 25.0 2.3 0.7 6.7 19.9 28.8 24.0
Gemini-Nano-3B - - - 22.8 - - 27.2 42.4 -
StableLM-Zephyr-3B 2.7B 45.9 30.3 52.5 12.5 35.4 31.9 37.7 30.9
Phi-2 2.5B 52.7 23.4 57.2 3.5 47.6 55.0 43.4 24.2
MiniCPM-2B 2.4B 53.5 51.1 53.8 10.2 50.0 47.3 36.9 51.1
Gemma-2B 2.0B 42.3 - 17.7 11.8 22.0 29.2 35.2 -
Qwen1.5-0.5B 0.3B 39.2 50.5 22.0 3.1 12.2 6.8 18.3 46.6
Qwen1.5-1.8B 1.2B 46.8 59.7 38.4 10.1 20.1 18.0 24.2 57.8
Qwen1.5-4B 3.1B 56.1 67.6 57.0 10.0 25.6 29.2 32.5 66.7
Qwen1.5-MoE-A2.7B 2.0B 62.5 79.2 61.5 21.9 34.2 36.6 39.1 79.2
模型推理

用户可以通过以下两种方式实现大模型在高通芯片上的推理运行:

许可证
源模型许可证:APACHE-2.0
可部署模型许可证:APLUX-MODEL-FARM-LICENSE
性能参考

设备

AI框架
数据精度
首字响应
编码速度
解码速度
上下文长度
文件大小