Qwen3-VL-4B-Instruct (448x448)
图像描述
W4A16
post
Qwen3-VL-4B-Instruct

认识 Qwen3-VL —— 迄今为止 Qwen 系列中最强大的视觉-语言模型。

这一代模型实现了全方位升级:在文本理解与生成能力上更为出色,具备更深层次的视觉感知与推理能力,支持更长的上下文长度,并在空间理解、视频动态感知以及智能体交互能力方面显著增强。

模型提供 Dense 和 MoE 两种架构形态,可从端侧扩展到云端,同时支持 Instruct 版本和增强推理能力的 Thinking 版本,满足灵活、按需的部署需求。

性能参考

设备

AI框架
数据精度
推理耗时
精确度损失
模型大小
模型资源获取

Model Farm 提供预编译好的模型资源以及推理代码,支持以下两种方式获取:

  • 通过 Model Farm 页面获取:在右侧性能参考板块中点击模型 & 代码获取模型资源及代码包。

  • 通过命令获取(推荐):持有阿加犀开发板的用户,可以通过开发板内置的 MMS 工具获取模型资源及代码包。

# 模型查询
mms list [model name]

# 模型资源获取
mms get -m [model name] -p [precision] -c [soc] -b [backend] -d [file path]

MMS 具体使用请参考:MMS 使用 & 提前获取预览版块模型

模型详情

主要增强特性:

  • 视觉智能体(Visual Agent):可操作 PC / 移动端 GUI,能够识别界面元素、理解功能、调用工具并完成任务。

  • 视觉编程能力提升(Visual Coding Boost):可根据图像或视频生成 Draw.io / HTML / CSS / JavaScript 代码。

  • 先进的空间感知能力(Advanced Spatial Perception):能够判断物体位置、视角和遮挡关系,提供更强的 2D 定位能力,并支持用于空间推理和具身智能的 3D 定位。

  • 长上下文与视频理解(Long Context & Video Understanding):原生支持 256K 上下文,可扩展至 1M;能够完整理解书籍级文本和数小时级视频内容,并支持秒级索引与精准回溯。

  • 增强的多模态推理能力(Enhanced Multimodal Reasoning):在 STEM / 数学领域表现突出,具备更强的因果分析能力,能够给出逻辑严谨、基于证据的回答。

  • 升级的视觉识别能力(Upgraded Visual Recognition):通过更大规模、更高质量的预训练,实现“万物识别”,涵盖名人、动漫角色、商品、地标、动植物等。

  • OCR 能力扩展(Expanded OCR):支持 32 种语言(由原来的 19 种提升);在低光照、模糊、倾斜等复杂场景下更加稳健,对生僻字、古文字和专业术语识别更友好,并显著提升了长文档结构解析能力。

  • 文本理解能力媲美纯 LLM(Text Understanding on par with pure LLMs):实现文本与视觉的无缝融合,带来无损、统一的理解体验。

源模型评估

多模态性能

纯文本性能

模型推理

待发布

许可证
源模型许可证:APACHE-2.0
可部署模型许可证:APLUX-MODEL-FARM-LICENSE
性能参考

设备

AI框架
数据精度
推理耗时
精确度损失
模型大小