OWL-ViT

目标检测

W8A16

FP16

OWL-ViT：目标检测

OWL-ViT（Open-World Localization Vision Transformer）是由Google Research提出的开放词汇目标检测模型，结合CLIP的视觉-语言预训练能力与目标检测框架，实现无需微调即可检测任意文本描述的新类别物体。其核心将CLIP的图像编码器与文本编码器扩展为检测架构，通过对比学习对齐图像区域与文本描述，动态生成候选框并预测匹配分数。模型基于Vision Transformer（ViT）提取全局特征，利用轻量级检测头定位目标，支持零样本（Zero-Shot）迁移至未知类别（如“紫色独角兽玩偶”或“带logo的背包”），在LVIS等开放数据集上展现强泛化能力。适用于动态场景下的新兴物体检测（如零售商品识别、机器人交互）。

源模型

输入尺寸: [[1,3,768,768]], [[1,16],[1,16]],[[1,24,24,768],[1,512],[1,16]]
参数量: 84.92M, 60.46M, --
模型大小: 339.91M, 242.06M, 1.51M
输出尺寸：[[1,24,24,768],[1,576,4]], [[1,512]], [[1,576,1]]

源模型工程请访问：OWL-ViT

性能参考

设备

AI框架

数据精度

推理耗时

精确度损失

模型大小

模型转换

当用户对源模型进行过微调，需要重新进行模型转换。

用户可以自行参考以下两种方式完成模型转换：

使用 AIMO 完成模型转换：在右侧性能参考板块中点击模型转换参考查看模型转换步骤
使用高通 QNN 完成模型转换：请参考 Qualcomm QNN 文档

模型推理

Model Farm 所提供的模型性能基准测试以及示例代码皆基于阿加犀AidLite SDK 实现。

对于模型文件格式为 .bin 的模型，可以使用以下两种推理引擎完成模型在高通芯片上推理：

使用 APLUX AidLite 推理：详情请参考 APLUX AidLite 开发者文档
使用 Qualcomm QNN 推理：请参考 Qualcomm QNN 文档

推理示例代码

推理示例代码是基于 AidLite SDK 实现

点击模型 & 代码下载模型文件和推理代码包，文件结构如下

/model_farm_{model_name}_aidlite
    
    |__ models # folder where model files are stored

    |__ python # aidlite python model inference example

    |__ cpp # aidlite cpp model inference example

    |__ README.md

许可证

源模型许可证：APACHE-2.0

可部署模型许可证：APLUX-MODEL-FARM-LICENSE