Qwen2.5-VL-7B-Instruct (392x392)
图像描述
W4A16
post
Qwen2.5-VL-7B-Instruct

在 Qwen2-VL 发布后的五个月里,众多开发者基于 Qwen2-VL 视觉-语言模型构建了新模型,并为Qwen提供了宝贵的反馈。在此期间,Qwen 专注于打造更实用的视觉-语言模型。

主要增强功能:

  • 视觉理解能力:Qwen2.5-VL 不仅擅长识别花卉、鸟类、鱼类、昆虫等常见物体,还能高效分析图像中的文本、图表、图标、图形及布局。

  • 具备主动性:Qwen2.5-VL 可直接作为视觉代理进行推理和动态操作工具,支持电脑及手机操作。

  • 理解长视频并捕捉事件:Qwen2.5-VL 可理解超过 1 小时的视频,并新增了通过定位相关视频片段捕捉事件的能力。

  • 多格式视觉定位能力:Qwen2.5-VL 能够通过生成边界框或关键点精确定位图像中的物体,并可稳定输出坐标及属性的 JSON 格式数据。

  • 生成结构化输出:针对发票、表单、表格等扫描数据,Qwen2.5-VL 支持结构化内容输出,有助于在金融、商业等场景的应用。

性能参考

设备

AI框架
数据精度
推理耗时
精确度损失
模型大小
模型详情

模型架构更新

  • 用于视频理解的动态分辨率和帧率训练

Qwen将动态分辨率扩展到时间维度,通过采用动态 FPS(帧率)采样,使模型能够理解不同采样率的视频。为此,Qwen在时间维度上更新了 mRoPE,引入 ID 和绝对时间对齐,使模型能够学习时间序列和速度,并最终具备定位视频中特定时刻的能力。

  • 精简高效的视觉编码器

通过在 ViT 中策略性地引入 window attention,Qwen提升了训练和推理速度。ViT 架构进一步优化,引入 SwiGLU 和 RMSNorm,使其结构与 Qwen2.5 大语言模型保持一致。

Qwen提供三个规模的模型,参数量分别为 3B、7B 和 72B。本仓库包含经过指令微调的 3B Qwen2.5-VL 模型。更多信息请访问Qwen的 博客GitHub

源模型评估

注意:此表格显示的是源模型的评估,而非量化模型的评估。源模型评估来自于 Qwen2.5-VL-7B-Instruct 评估结果

图片评估

Benchmark InternVL2.5-8B MiniCPM-o 2.6 GPT-4o-mini Qwen2-VL-7B Qwen2.5-VL-7B
MMMUval 56 50.4 60 54.1 58.6
MMMU-Proval 34.3 - 37.6 30.5 41.0
DocVQAtest 93 93 - 94.5 95.7
InfoVQAtest 77.6 - - 76.5 82.6
ChartQAtest 84.8 - - 83.0 87.3
TextVQAval 79.1 80.1 - 84.3 84.9
OCRBench 822 852 785 845 864
CC_OCR 57.7 61.6 77.8
MMStar 62.8 60.7 63.9
MMBench-V1.1-Entest 79.4 78.0 76.0 80.7 82.6
MMT-Benchtest - - - 63.7 63.6
MMStar 61.5 57.5 54.8 60.7 63.9
MMVetGPT-4-Turbo 54.2 60.0 66.9 62.0 67.1
HallBenchavg 45.2 48.1 46.1 50.6 52.9
MathVistatestmini 58.3 60.6 52.4 58.2 68.2
MathVision - - - 16.3 25.07

视频评估

Benchmark Qwen2-VL-7B Qwen2.5-VL-7B
MVBench 67.0 69.6
PerceptionTesttest 66.9 70.5
Video-MMEwo/w subs 63.3/69.0 65.1/71.6
LVBench 45.3
LongVideoBench 54.7
MMBench-Video 1.44 1.79
TempCompass 71.7
MLVU 70.2
CharadesSTA/mIoU 43.6

智能体评估

Benchmarks Qwen2.5-VL-7B
ScreenSpot 84.7
ScreenSpot Pro 29.0
AITZ_EM 81.9
Android Control High_EM 60.1
Android Control Low_EM 93.7
AndroidWorld_SR 25.5
MobileMiniWob++_SR 91.4
模型推理

待发布

许可证
源模型许可证:MIT
可部署模型许可证:APLUX-MODEL-FARM-LICENSE
性能参考

设备

AI框架
数据精度
推理耗时
精确度损失
模型大小