Qwen3-4B
文字生成
W4A16
post
Qwen3-4B

Qwen3 是 Qwen 系列最新一代的大语言模型,提供了完整的稠密模型和专家混合(MoE)模型套件。基于大规模训练,Qwen3 在推理、指令跟随、智能体能力以及多语言支持方面实现了突破性进展,主要特性如下:

  • 独特支持在单一模型中无缝切换:可在 思考模式(用于复杂逻辑推理、数学和编程)与 非思考模式(用于高效的通用对话)之间切换,从而在不同场景下都能发挥最佳性能。
  • 推理能力显著增强:在数学、代码生成和常识逻辑推理方面,超越了此前的 QwQ(思考模式)和 Qwen2.5 instruct 模型(非思考模式)。
  • 更优的人类偏好对齐:在创意写作、角色扮演、多轮对话和指令跟随方面表现突出,能够带来更自然、更有吸引力和更沉浸式的对话体验。
  • 智能体能力方面的专长:能够在思考和非思考模式下精确调用外部工具,在复杂的基于智能体任务中实现了开源模型的领先表现。
  • 支持 100+ 种语言和方言,并具备强大的 多语言指令跟随翻译 能力。
性能参考

设备

AI框架
数据精度
首字响应
编码速度
解码速度
上下文长度
文件大小
模型资源获取

Model Farm 提供预编译好的模型资源以及推理代码,支持以下两种方式获取:

  • 通过 Model Farm 页面获取:在右侧性能参考板块中点击模型 & 代码获取模型资源及代码包。

  • 通过命令获取(推荐):持有阿加犀开发板的用户,可以通过开发板内置的 MMS 工具获取模型资源及代码包。

# 模型查询
mms list [model name]

# 模型资源获取
mms get -m [model name] -p [precision] -c [soc] -b [backend] -d [file path]

MMS 具体使用请参考:MMS 使用 & 提前获取预览版块模型

模型详情

Qwen3-4B 具有以下特性:

  • 类型:因果语言模型
  • 训练阶段:预训练 & 后训练
  • 参数量:40 亿
  • 非嵌入参数量:36 亿
  • 层数:36
  • 注意力头数(GQA):Q 为 32,KV 为 8
  • 上下文长度:原生支持 32,768,使用 YaRN 可扩展至 131,072 tokens。

更多详情,包括基准评测、硬件需求和推理性能,请参考我们的 博客GitHub 以及 文档

源模型评估

注意:此表格显示的是源模型的评估,而非量化模型的评估。源模型评估来自于 Qwen3-4B 评估结果

Benchmark Qwen3-308A-3B (MoE) QwQ-32B Qwen3-4B (Dense) Qwen2.5-72B-Instruct Gemma3-27B-IT DeepSeek-V3 GPT-4o (2024-11-20)
ArenaHard 91.0 89.5 76.6 81.2 86.8 85.5 85.3
AIME'24 80.4 79.5 73.8 18.9 32.6 39.2 11.1
AIME'25 70.9 69.5 65.6 15.0 24.0 28.8 7.6
LiveCodeBench 62.6 62.7 54.2 30.7 26.9 33.1 32.7
CodeForces 1974 1982 1671 859 1063 1134 864
GPQA 65.8 65.6 55.9 49.0 42.4 59.1 46.0
LiveBench 74.3 72.0 63.6 51.4 49.2 60.5 52.2
BFCL 69.1 66.4 65.9 63.4 59.1 57.6 72.5
MultiIF 72.2 68.3 66.3 65.3 69.8 55.6 65.6
模型推理

用户可以通过以下两种方式实现大模型在高通芯片上的推理运行:

许可证
源模型许可证:APACHE-2.0
可部署模型许可证:APLUX-MODEL-FARM-LICENSE
性能参考

设备

AI框架
数据精度
首字响应
编码速度
解码速度
上下文长度
文件大小