SenseVoiceSmall
语音识别
W8A16
FP16
post
SenseVoiceSmall:语音识别

SenseVoiceSmall 是由 FunAudioLLM(Alibaba/FunASR 团队)推出的轻量级多任务语音理解模型,专为边缘设备与实时应用设计。它采用非自回归端到端结构,拥有极低的推理延迟(10 s 音频约 70 ms),比 Whisper-Small 快约 5 倍,比 Whisper-Large 快约 15 倍。

  • 多任务学习:支持多语种语音识别(ASR)、语言识别(LID)、情感识别(SER)及声学事件检测(AED),涵盖中文(普通话与粤语)、英语、日语、韩语等。

  • 高精度识别:在中文、粤语场景中 ASR 准确率优于 Whisper,并且情感识别达当前开源模型最优水平。

  • 推理效率优秀:非自回归架构带来低延迟与高吞吐,适配 CPU、GPU 与 NPU。

SenseVoiceSmall 既可用于快速语音转文字,也可实现情绪分析与事件检测,适合用于智能助手、智能监控与实时语音分析等场景。

源模型工程请访问:SenseVoiceSmall

性能参考

设备

语种
数据精度
音频长度
实时率(RTF)
模型大小
支持的语种
支持的语种
中文
粤语
英文
日语
韩语

注意:在右侧性能参考板块中,展示了当前音频输入长度下对应语种的 RTF 值。由于模型输入尺寸固化(非动态输入),低于该音频长度的 RTF 值会略微增高。

使用AidASR推理

待发布

许可证
源模型许可证:FUNASR-MODEL-LICENSE
可部署模型许可证:APLUX-MODEL-FARM-LICENSE
性能参考

设备

语种
数据精度
音频长度
实时率(RTF)
模型大小