
在 Qwen2-VL 发布后的五个月里,众多开发者基于 Qwen2-VL 视觉-语言模型构建了新模型,并为Qwen提供了宝贵的反馈。在此期间,Qwen 专注于打造更实用的视觉-语言模型。
主要增强功能:
视觉理解能力:Qwen2.5-VL 不仅擅长识别花卉、鸟类、鱼类、昆虫等常见物体,还能高效分析图像中的文本、图表、图标、图形及布局。
具备主动性:Qwen2.5-VL 可直接作为视觉代理进行推理和动态操作工具,支持电脑及手机操作。
理解长视频并捕捉事件:Qwen2.5-VL 可理解超过 1 小时的视频,并新增了通过定位相关视频片段捕捉事件的能力。
多格式视觉定位能力:Qwen2.5-VL 能够通过生成边界框或关键点精确定位图像中的物体,并可稳定输出坐标及属性的 JSON 格式数据。
生成结构化输出:针对发票、表单、表格等扫描数据,Qwen2.5-VL 支持结构化内容输出,有助于在金融、商业等场景的应用。
模型架构更新
- 用于视频理解的动态分辨率和帧率训练
Qwen将动态分辨率扩展到时间维度,通过采用动态 FPS(帧率)采样,使模型能够理解不同采样率的视频。为此,Qwen在时间维度上更新了 mRoPE,引入 ID 和绝对时间对齐,使模型能够学习时间序列和速度,并最终具备定位视频中特定时刻的能力。
- 精简高效的视觉编码器
通过在 ViT 中策略性地引入 window attention,Qwen提升了训练和推理速度。ViT 架构进一步优化,引入 SwiGLU 和 RMSNorm,使其结构与 Qwen2.5 大语言模型保持一致。
Qwen提供三个规模的模型,参数量分别为 3B、7B 和 72B。本仓库包含经过指令微调的 3B Qwen2.5-VL 模型。更多信息请访问Qwen的 博客 和 GitHub。
注意:此表格显示的是源模型的评估,而非量化模型的评估。源模型评估来自于 Qwen2.5-VL-7B-Instruct 评估结果
图片评估
Benchmark | InternVL2.5-8B | MiniCPM-o 2.6 | GPT-4o-mini | Qwen2-VL-7B | Qwen2.5-VL-7B |
---|---|---|---|---|---|
MMMUval | 56 | 50.4 | 60 | 54.1 | 58.6 |
MMMU-Proval | 34.3 | - | 37.6 | 30.5 | 41.0 |
DocVQAtest | 93 | 93 | - | 94.5 | 95.7 |
InfoVQAtest | 77.6 | - | - | 76.5 | 82.6 |
ChartQAtest | 84.8 | - | - | 83.0 | 87.3 |
TextVQAval | 79.1 | 80.1 | - | 84.3 | 84.9 |
OCRBench | 822 | 852 | 785 | 845 | 864 |
CC_OCR | 57.7 | 61.6 | 77.8 | ||
MMStar | 62.8 | 60.7 | 63.9 | ||
MMBench-V1.1-Entest | 79.4 | 78.0 | 76.0 | 80.7 | 82.6 |
MMT-Benchtest | - | - | - | 63.7 | 63.6 |
MMStar | 61.5 | 57.5 | 54.8 | 60.7 | 63.9 |
MMVetGPT-4-Turbo | 54.2 | 60.0 | 66.9 | 62.0 | 67.1 |
HallBenchavg | 45.2 | 48.1 | 46.1 | 50.6 | 52.9 |
MathVistatestmini | 58.3 | 60.6 | 52.4 | 58.2 | 68.2 |
MathVision | - | - | - | 16.3 | 25.07 |
视频评估
Benchmark | Qwen2-VL-7B | Qwen2.5-VL-7B |
---|---|---|
MVBench | 67.0 | 69.6 |
PerceptionTesttest | 66.9 | 70.5 |
Video-MMEwo/w subs | 63.3/69.0 | 65.1/71.6 |
LVBench | 45.3 | |
LongVideoBench | 54.7 | |
MMBench-Video | 1.44 | 1.79 |
TempCompass | 71.7 | |
MLVU | 70.2 | |
CharadesSTA/mIoU | 43.6 |
智能体评估
Benchmarks | Qwen2.5-VL-7B |
---|---|
ScreenSpot | 84.7 |
ScreenSpot Pro | 29.0 |
AITZ_EM | 81.9 |
Android Control High_EM | 60.1 |
Android Control Low_EM | 93.7 |
AndroidWorld_SR | 25.5 |
MobileMiniWob++_SR | 91.4 |
待发布