Qwen3-0.6B
文字生成
W4A16
post
Qwen3-0.6B

Qwen3 是 Qwen 系列最新一代的大语言模型,提供了完整的稠密模型和专家混合(MoE)模型套件。基于大规模训练,Qwen3 在推理、指令跟随、智能体能力以及多语言支持方面实现了突破性进展,主要特性如下:

  • 独特支持在单一模型中无缝切换:可在 思考模式(用于复杂逻辑推理、数学和编程)与 非思考模式(用于高效的通用对话)之间切换,从而在不同场景下都能发挥最佳性能。
  • 推理能力显著增强:在数学、代码生成和常识逻辑推理方面,超越了此前的 QwQ(思考模式)和 Qwen2.5 instruct 模型(非思考模式)。
  • 更优的人类偏好对齐:在创意写作、角色扮演、多轮对话和指令跟随方面表现突出,能够带来更自然、更有吸引力和更沉浸式的对话体验。
  • 智能体能力方面的专长:能够在思考和非思考模式下精确调用外部工具,在复杂的基于智能体任务中实现了开源模型的领先表现。
  • 支持 100+ 种语言和方言,并具备强大的 多语言指令跟随翻译 能力。
性能参考

设备

AI框架
数据精度
首字响应
编码速度
解码速度
上下文长度
文件大小
模型资源获取

Model Farm 提供预编译好的模型资源以及推理代码,支持以下两种方式获取:

  • 通过 Model Farm 页面获取:在右侧性能参考板块中点击模型 & 代码获取模型资源及代码包。

  • 通过命令获取(推荐):持有阿加犀开发板的用户,可以通过开发板内置的 MMS 工具获取模型资源及代码包。

# 模型查询
mms list [model name]

# 模型资源获取
mms get -m [model name] -p [precision] -c [soc] -b [backend] -d [file path]

MMS 具体使用请参考:MMS 使用 & 提前获取预览版块模型

模型详情

Qwen3-0.6B 具有以下特性:

  • 类型:因果语言模型
  • 训练阶段:预训练 & 后训练
  • 参数量:6 亿
  • 非嵌入参数量:4.4 亿
  • 层数:28
  • 注意力头数(GQA):Q 为 16,KV 为 8
  • 上下文长度:原生支持 32,768

更多详情,包括基准评测、硬件需求和推理性能,请参考我们的 博客GitHub 以及 文档

源模型评估

官方未提供评估结果

模型推理

用户可以通过以下两种方式实现大模型在高通芯片上的推理运行:

许可证
源模型许可证:APACHE-2.0
可部署模型许可证:APLUX-MODEL-FARM-LICENSE
性能参考

设备

AI框架
数据精度
首字响应
编码速度
解码速度
上下文长度
文件大小