SenseVoiceSmall

SenseVoiceSmall：语音识别

SenseVoiceSmall 是由 FunAudioLLM（Alibaba/FunASR 团队）推出的轻量级多任务语音理解模型，专为边缘设备与实时应用设计。它采用非自回归端到端结构，拥有极低的推理延迟（10 s 音频约 70 ms），比 Whisper-Small 快约 5 倍，比 Whisper-Large 快约 15 倍。

多任务学习：支持多语种语音识别（ASR）、语言识别（LID）、情感识别（SER）及声学事件检测（AED），涵盖中文（普通话与粤语）、英语、日语、韩语等。
高精度识别：在中文、粤语场景中 ASR 准确率优于 Whisper，并且情感识别达当前开源模型最优水平。
推理效率优秀：非自回归架构带来低延迟与高吞吐，适配 CPU、GPU 与 NPU。

SenseVoiceSmall 既可用于快速语音转文字，也可实现情绪分析与事件检测，适合用于智能助手、智能监控与实时语音分析等场景。

源模型工程请访问：SenseVoiceSmall

支持的语种

支持的语种
中文
粤语
英文
日语
韩语

注意：在右侧性能参考板块中，展示了当前音频输入长度下对应语种的 RTF 值。由于模型输入尺寸固化（非动态输入），低于该音频长度的 RTF 值会略微增高。

使用AidASR推理

待发布

许可证

源模型许可证：FUNASR-MODEL-LICENSE

可部署模型许可证：APLUX-MODEL-FARM-LICENSE