Whisper-medium

Whisper-medium：语音识别

Whisper-medium 是 OpenAI Whisper 系列中的大型模型之一，具备更强的语音建模能力和更高的识别精度。相较于 small 版本，Whisper-medium 拥有更多参数和更复杂的网络结构，能更好地处理多语种、长语音、口音差异及嘈杂环境下的语音识别任务。该模型在多种公开语音识别基准上表现出色，适合用于高要求的语音转写、字幕生成、语音翻译等应用场景，通常部署于具有较强算力的服务器或云端系统中。

源模型工程请访问：Whisper-medium

性能参考

设备

语种

数据精度

音频长度

实时率(RTF)

模型大小

模型资源获取

Model Farm 提供预编译好的模型资源以及推理代码，支持以下两种方式获取：

通过 Model Farm 页面获取：在右侧性能参考板块中点击模型 & 代码获取模型资源及代码包。
通过命令获取（推荐）：持有阿加犀开发板的用户，可以通过开发板内置的 MMS 工具获取模型资源及代码包。

# 模型查询
mms list [model name]

# 模型资源获取
mms get -m [model name] -p [precision] -c [soc] -b [backend] -d [file path]

MMS 具体使用请参考：MMS 使用 & 提前获取预览版块模型

支持的语种

支持的语种
中文
英文
日语
韩语
法语
泰语

注意：在右侧性能参考板块中，展示了当前音频输入长度下对应语种的 RTF 值。由于模型输入尺寸固化（非动态输入），低于该音频长度的 RTF 值会略微增高。

使用AidVoice推理

使用 AidVoice SDK 推理：请参考 AidVoice SDK 文档

许可证

源模型许可证：MIT

可部署模型许可证：APLUX-MODEL-FARM-LICENSE