Qwen2.5-VL-3B-Instruct (672x672)
图像描述
W4A16
post
Qwen2.5-VL-3B-Instruct

在 Qwen2-VL 发布后的五个月里,众多开发者基于 Qwen2-VL 视觉-语言模型构建了新模型,并为Qwen提供了宝贵的反馈。在此期间,Qwen 专注于打造更实用的视觉-语言模型。

主要增强功能:

  • 视觉理解能力:Qwen2.5-VL 不仅擅长识别花卉、鸟类、鱼类、昆虫等常见物体,还能高效分析图像中的文本、图表、图标、图形及布局。

  • 具备主动性:Qwen2.5-VL 可直接作为视觉代理进行推理和动态操作工具,支持电脑及手机操作。

  • 理解长视频并捕捉事件:Qwen2.5-VL 可理解超过 1 小时的视频,并新增了通过定位相关视频片段捕捉事件的能力。

  • 多格式视觉定位能力:Qwen2.5-VL 能够通过生成边界框或关键点精确定位图像中的物体,并可稳定输出坐标及属性的 JSON 格式数据。

  • 生成结构化输出:针对发票、表单、表格等扫描数据,Qwen2.5-VL 支持结构化内容输出,有助于在金融、商业等场景的应用。

性能参考

设备

AI框架
数据精度
推理耗时
精确度损失
模型大小
模型资源获取

Model Farm 提供预编译好的模型资源以及推理代码,支持以下两种方式获取:

  • 通过 Model Farm 页面获取:在右侧性能参考板块中点击模型 & 代码获取模型资源及代码包。

  • 通过命令获取(推荐):持有阿加犀开发板的用户,可以通过开发板内置的 MMS 工具获取模型资源及代码包。

# 模型查询
mms list [model name]

# 模型资源获取
mms get -m [model name] -p [precision] -c [soc] -b [backend] -d [file path]

MMS 具体使用请参考:MMS 使用 & 提前获取预览版块模型

模型详情

模型架构更新

  • 用于视频理解的动态分辨率和帧率训练

Qwen将动态分辨率扩展到时间维度,通过采用动态 FPS(帧率)采样,使模型能够理解不同采样率的视频。为此,Qwen在时间维度上更新了 mRoPE,引入 ID 和绝对时间对齐,使模型能够学习时间序列和速度,并最终具备定位视频中特定时刻的能力。

  • 精简高效的视觉编码器

通过在 ViT 中策略性地引入 window attention,Qwen提升了训练和推理速度。ViT 架构进一步优化,引入 SwiGLU 和 RMSNorm,使其结构与 Qwen2.5 大语言模型保持一致。

Qwen提供三个规模的模型,参数量分别为 3B、7B 和 72B。本仓库包含经过指令微调的 3B Qwen2.5-VL 模型。更多信息请访问Qwen的 博客GitHub

源模型评估

注意:此表格显示的是源模型的评估,而非量化模型的评估。源模型评估来自于 Qwen2.5-VL-3B-Instruct 评估结果

图片评估

Benchmark InternVL2.5-4B Qwen2-VL-7B Qwen2.5-VL-3B
MMMUval 52.3 54.1 53.1
MMMU-Proval 32.7 30.5 31.6
AI2Dtest 81.4 83.0 81.5
DocVQAtest 91.6 94.5 93.9
InfoVQAtest 72.1 76.5 77.1
TextVQAval 76.8 84.3 79.3
MMBench-V1.1test 79.3 80.7 77.6
MMStar 58.3 60.7 55.9
MathVistatestmini 60.5 58.2 62.3
MathVisionfull 20.9 16.3 21.2

视频评估

Benchmark InternVL2.5-4B Qwen2-VL-7B Qwen2.5-VL-3B
MVBench 71.6 67.0 67.0
VideoMME 63.6/62.3 69.0/63.3 67.6/61.5
MLVU 48.3 - 68.2
LVBench - - 43.3
MMBench-Video 1.73 1.44 1.63
EgoSchema - - 64.8
PerceptionTest - - 66.9
TempCompass - - 64.4
LongVideoBench 55.2 55.6 54.2
CharadesSTA/mIoU - - 38.8

智能体评估

Benchmarks Qwen2.5-VL-3B
ScreenSpot 55.5
ScreenSpot Pro 23.9
AITZ_EM 76.9
Android Control High_EM 63.7
Android Control Low_EM 22.2
AndroidWorld_SR 90.8
MobileMiniWob++_SR 67.9
模型推理

待发布

许可证
源模型许可证:APACHE-2.0
可部署模型许可证:APLUX-MODEL-FARM-LICENSE
性能参考

设备

AI框架
数据精度
推理耗时
精确度损失
模型大小