Whisper-medium
语音识别
W8A16

Whisper-medium:语音识别
Whisper-medium 是 OpenAI Whisper 系列中的大型模型之一,具备更强的语音建模能力和更高的识别精度。相较于 small 版本,Whisper-medium 拥有更多参数和更复杂的网络结构,能更好地处理多语种、长语音、口音差异及嘈杂环境下的语音识别任务。该模型在多种公开语音识别基准上表现出色,适合用于高要求的语音转写、字幕生成、语音翻译等应用场景,通常部署于具有较强算力的服务器或云端系统中。
源模型工程请访问:Whisper-medium
性能参考
设备
语种
数据精度
音频长度
实时率(RTF)
模型大小
支持的语种
支持的语种 |
---|
中文 |
英文 |
日语 |
韩语 |
法语 |
泰语 |
注意:在右侧性能参考板块中,展示了当前音频输入长度下对应语种的 RTF 值。由于模型输入尺寸固化(非动态输入),低于该音频长度的 RTF 值会略微增高。
使用AidASR推理
待发布
性能参考
设备
语种
数据精度
音频长度
实时率(RTF)
模型大小