Qwen2.5-VL-3B-Instruct (672x672)

图像描述

W4A16

Qwen2.5-VL-3B-Instruct

在 Qwen2-VL 发布后的五个月里，众多开发者基于 Qwen2-VL 视觉-语言模型构建了新模型，并为Qwen提供了宝贵的反馈。在此期间，Qwen 专注于打造更实用的视觉-语言模型。

性能参考

设备

AI框架

数据精度

推理耗时

精确度损失

模型大小

模型资源获取

Model Farm 提供预编译好的模型资源以及推理代码，支持以下两种方式获取：

# 模型查询
mms list [model name]

# 模型资源获取
mms get -m [model name] -p [precision] -c [soc] -b [backend] -d [file path]

MMS 具体使用请参考：MMS 使用 & 提前获取预览版块模型

模型详情

Qwen将动态分辨率扩展到时间维度，通过采用动态 FPS（帧率）采样，使模型能够理解不同采样率的视频。为此，Qwen在时间维度上更新了 mRoPE，引入 ID 和绝对时间对齐，使模型能够学习时间序列和速度，并最终具备定位视频中特定时刻的能力。

通过在 ViT 中策略性地引入 window attention，Qwen提升了训练和推理速度。ViT 架构进一步优化，引入 SwiGLU 和 RMSNorm，使其结构与 Qwen2.5 大语言模型保持一致。

Qwen提供三个规模的模型，参数量分别为 3B、7B 和 72B。本仓库包含经过指令微调的 3B Qwen2.5-VL 模型。更多信息请访问Qwen的博客和 GitHub。

源模型评估

注意：此表格显示的是源模型的评估，而非量化模型的评估。源模型评估来自于 Qwen2.5-VL-3B-Instruct 评估结果

Benchmark	InternVL2.5-4B	Qwen2-VL-7B	Qwen2.5-VL-3B
MMMU_val	52.3	54.1	53.1
MMMU-Pro_val	32.7	30.5	31.6
AI2D_test	81.4	83.0	81.5
DocVQA_test	91.6	94.5	93.9
InfoVQA_test	72.1	76.5	77.1
TextVQA_val	76.8	84.3	79.3
MMBench-V1.1_test	79.3	80.7	77.6
MMStar	58.3	60.7	55.9
MathVista_testmini	60.5	58.2	62.3
MathVision_full	20.9	16.3	21.2

Benchmark	InternVL2.5-4B	Qwen2-VL-7B	Qwen2.5-VL-3B
MVBench	71.6	67.0	67.0
VideoMME	63.6/62.3	69.0/63.3	67.6/61.5
MLVU	48.3	-	68.2
LVBench	-	-	43.3
MMBench-Video	1.73	1.44	1.63
EgoSchema	-	-	64.8
PerceptionTest	-	-	66.9
TempCompass	-	-	64.4
LongVideoBench	55.2	55.6	54.2
CharadesSTA/mIoU	-	-	38.8

模型推理

待发布

许可证

源模型许可证：APACHE-2.0