
在 Qwen2-VL 发布后的五个月里,众多开发者基于 Qwen2-VL 视觉-语言模型构建了新模型,并为Qwen提供了宝贵的反馈。在此期间,Qwen 专注于打造更实用的视觉-语言模型。
主要增强功能:
视觉理解能力:Qwen2.5-VL 不仅擅长识别花卉、鸟类、鱼类、昆虫等常见物体,还能高效分析图像中的文本、图表、图标、图形及布局。
具备主动性:Qwen2.5-VL 可直接作为视觉代理进行推理和动态操作工具,支持电脑及手机操作。
理解长视频并捕捉事件:Qwen2.5-VL 可理解超过 1 小时的视频,并新增了通过定位相关视频片段捕捉事件的能力。
多格式视觉定位能力:Qwen2.5-VL 能够通过生成边界框或关键点精确定位图像中的物体,并可稳定输出坐标及属性的 JSON 格式数据。
生成结构化输出:针对发票、表单、表格等扫描数据,Qwen2.5-VL 支持结构化内容输出,有助于在金融、商业等场景的应用。
Model Farm 提供预编译好的模型资源以及推理代码,支持以下两种方式获取:
通过 Model Farm 页面获取:在右侧性能参考板块中点击模型 & 代码获取模型资源及代码包。
通过命令获取(推荐):持有阿加犀开发板的用户,可以通过开发板内置的 MMS 工具获取模型资源及代码包。
# 模型查询
mms list [model name]
# 模型资源获取
mms get -m [model name] -p [precision] -c [soc] -b [backend] -d [file path]
MMS 具体使用请参考:MMS 使用 & 提前获取预览版块模型
模型架构更新
- 用于视频理解的动态分辨率和帧率训练
Qwen将动态分辨率扩展到时间维度,通过采用动态 FPS(帧率)采样,使模型能够理解不同采样率的视频。为此,Qwen在时间维度上更新了 mRoPE,引入 ID 和绝对时间对齐,使模型能够学习时间序列和速度,并最终具备定位视频中特定时刻的能力。
- 精简高效的视觉编码器
通过在 ViT 中策略性地引入 window attention,Qwen提升了训练和推理速度。ViT 架构进一步优化,引入 SwiGLU 和 RMSNorm,使其结构与 Qwen2.5 大语言模型保持一致。
Qwen提供三个规模的模型,参数量分别为 3B、7B 和 72B。本仓库包含经过指令微调的 3B Qwen2.5-VL 模型。更多信息请访问Qwen的 博客 和 GitHub。
注意:此表格显示的是源模型的评估,而非量化模型的评估。源模型评估来自于 Qwen2.5-VL-3B-Instruct 评估结果
图片评估
| Benchmark | InternVL2.5-4B | Qwen2-VL-7B | Qwen2.5-VL-3B |
|---|---|---|---|
| MMMUval | 52.3 | 54.1 | 53.1 |
| MMMU-Proval | 32.7 | 30.5 | 31.6 |
| AI2Dtest | 81.4 | 83.0 | 81.5 |
| DocVQAtest | 91.6 | 94.5 | 93.9 |
| InfoVQAtest | 72.1 | 76.5 | 77.1 |
| TextVQAval | 76.8 | 84.3 | 79.3 |
| MMBench-V1.1test | 79.3 | 80.7 | 77.6 |
| MMStar | 58.3 | 60.7 | 55.9 |
| MathVistatestmini | 60.5 | 58.2 | 62.3 |
| MathVisionfull | 20.9 | 16.3 | 21.2 |
视频评估
| Benchmark | InternVL2.5-4B | Qwen2-VL-7B | Qwen2.5-VL-3B |
|---|---|---|---|
| MVBench | 71.6 | 67.0 | 67.0 |
| VideoMME | 63.6/62.3 | 69.0/63.3 | 67.6/61.5 |
| MLVU | 48.3 | - | 68.2 |
| LVBench | - | - | 43.3 |
| MMBench-Video | 1.73 | 1.44 | 1.63 |
| EgoSchema | - | - | 64.8 |
| PerceptionTest | - | - | 66.9 |
| TempCompass | - | - | 64.4 |
| LongVideoBench | 55.2 | 55.6 | 54.2 |
| CharadesSTA/mIoU | - | - | 38.8 |
智能体评估
| Benchmarks | Qwen2.5-VL-3B |
|---|---|
| ScreenSpot | 55.5 |
| ScreenSpot Pro | 23.9 |
| AITZ_EM | 76.9 |
| Android Control High_EM | 63.7 |
| Android Control Low_EM | 22.2 |
| AndroidWorld_SR | 90.8 |
| MobileMiniWob++_SR | 67.9 |
待发布