本地部署开源语音转文字模型 SenseVoice

阿里的语音转文字模型 https://github.com/FunAudioLLM/SenseVoice/

听说比 openai 的 Whisper 效果好,既然是开源的,那就下载来试试看吧。

  • 这个可以用 CPU 来运行,所以没有显卡也能用。

  • 对电脑系统要求有 python 和 ffmpeg。

首先把代码克隆到本地

git clone https://github.com/FunAudioLLM/SenseVoice.git

然后安装依赖

pip install -r requirements.txt

完成后启动 webui 就可以使用了

python webui.py

sensevoice-webui

一般运行之后,会给我们一个地址 http://127.0.0.1:7860 打开浏览器访问它,然后上传音频上去,语言可以选择一下,这样可以更快速转换,再点击一下 「start」按键就可以了。

我使用的是 Mac mini,观察了一下,使用时占用内存 1.6GB,点击 start 后开始转换,主要是 CPU 占用增加,GPU 好像没变化,转换时内存占用会提高到 2.6GB。

速度确实挺快的,三分钟的音频,6 秒就转换好了。这点可以从终端看到。

time_speech:  185.867, time_escape: 6.026: 100%

后面又尝试了一段 57 分钟的音频,耗时不到两分钟

time_speech:  3461.120, time_escape: 113.743: 100%

注意,安装的依赖比较占用空间

torch<=2.3
torchaudio
modelscope
huggingface
huggingface_hub
funasr>=1.1.3
numpy<=1.26.4
gradio
fastapi>=0.111.1

建议创建 python 虚拟环境,专门给它使用。

我这边 venv 目录占用了 883 MB。

目前好像就开源了这个 small 模型,我们好像也不能切换其它模型,不过我感觉转换的质量还不错,所以以后在 Mac 上我就使用它来语音转文字了,Windows 上面我还是会继续使用 Whisper。