本地部署开源语音转文字模型 SenseVoice

听说比 openai 的 Whisper 效果好，既然是开源的，那就下载来试试看吧。

首先把代码克隆到本地

git clone https://github.com/FunAudioLLM/SenseVoice.git

然后安装依赖

pip install -r requirements.txt

完成后启动 webui 就可以使用了

python webui.py

sensevoice-webui

一般运行之后，会给我们一个地址 http://127.0.0.1:7860 打开浏览器访问它，然后上传音频上去，语言可以选择一下，这样可以更快速转换，再点击一下「start」按键就可以了。

我使用的是 Mac mini，观察了一下，使用时占用内存 1.6GB，点击 start 后开始转换，主要是 CPU 占用增加，GPU 好像没变化，转换时内存占用会提高到 2.6GB。

速度确实挺快的，三分钟的音频，6 秒就转换好了。这点可以从终端看到。

time_speech:  185.867, time_escape: 6.026: 100%

后面又尝试了一段 57 分钟的音频，耗时不到两分钟

time_speech:  3461.120, time_escape: 113.743: 100%

注意，安装的依赖比较占用空间

torch<=2.3
torchaudio
modelscope
huggingface
huggingface_hub
funasr>=1.1.3
numpy<=1.26.4
gradio
fastapi>=0.111.1

建议创建 python 虚拟环境，专门给它使用。

我这边 venv 目录占用了 883 MB。

目前好像就开源了这个 small 模型，我们好像也不能切换其它模型，不过我感觉转换的质量还不错，所以以后在 Mac 上我就使用它来语音转文字了，Windows 上面我还是会继续使用 Whisper。