Qwen2.5-VL-7B-Instruct (392x392)

图像描述

W4A16

Qwen2.5-VL-7B-Instruct

在 Qwen2-VL 发布后的五个月里，众多开发者基于 Qwen2-VL 视觉-语言模型构建了新模型，并为Qwen提供了宝贵的反馈。在此期间，Qwen 专注于打造更实用的视觉-语言模型。

性能参考

设备

AI框架

数据精度

推理耗时

精确度损失

模型大小

模型详情

Qwen将动态分辨率扩展到时间维度，通过采用动态 FPS（帧率）采样，使模型能够理解不同采样率的视频。为此，Qwen在时间维度上更新了 mRoPE，引入 ID 和绝对时间对齐，使模型能够学习时间序列和速度，并最终具备定位视频中特定时刻的能力。

通过在 ViT 中策略性地引入 window attention，Qwen提升了训练和推理速度。ViT 架构进一步优化，引入 SwiGLU 和 RMSNorm，使其结构与 Qwen2.5 大语言模型保持一致。

Qwen提供三个规模的模型，参数量分别为 3B、7B 和 72B。本仓库包含经过指令微调的 3B Qwen2.5-VL 模型。更多信息请访问Qwen的博客和 GitHub。

源模型评估

注意：此表格显示的是源模型的评估，而非量化模型的评估。源模型评估来自于 Qwen2.5-VL-7B-Instruct 评估结果

Benchmark	InternVL2.5-8B	MiniCPM-o 2.6	GPT-4o-mini	Qwen2-VL-7B	Qwen2.5-VL-7B
MMMU_val	56	50.4	60	54.1	58.6
MMMU-Pro_val	34.3	-	37.6	30.5	41.0
DocVQA_test	93	93	-	94.5	95.7
InfoVQA_test	77.6	-	-	76.5	82.6
ChartQA_test	84.8	-	-	83.0	87.3
TextVQA_val	79.1	80.1	-	84.3	84.9
OCRBench	822	852	785	845	864
CC_OCR	57.7			61.6	77.8
MMStar	62.8			60.7	63.9
MMBench-V1.1-En_test	79.4	78.0	76.0	80.7	82.6
MMT-Bench_test	-	-	-	63.7	63.6
MMStar	61.5	57.5	54.8	60.7	63.9
MMVet_GPT-4-Turbo	54.2	60.0	66.9	62.0	67.1
HallBench_avg	45.2	48.1	46.1	50.6	52.9
MathVista_testmini	58.3	60.6	52.4	58.2	68.2
MathVision	-	-	-	16.3	25.07

模型推理

待发布

许可证

源模型许可证：MIT