VoxCPM 1.5 开源,语音生成能力再升级


自 VoxCPM 上线以来,我们收到了来自社区及开发者的广泛关注和诸多反馈,促使着 VoxCPM 持续进步。
今天,我们很高兴地和大家宣布, VoxCPM 1.5 版本正式上线,在持续优化开发者开发体验的同时,也带来了多项核心能力升级。
更新亮点一览:
①高采样音频克隆:AudioVAE 采样率从 16kHz 提升至 44.1kHz ,模型可根据高质量音频,克隆效果更佳、细节更丰富的声音;
② 生成效率翻倍:在模型参数有所增加的前提下,VoxCPM 1.5 仅需 6.25 个 token 即可生成 1 秒音频,较此前版本提高一倍,在保持速度的同时提升了音频生成质量;
③开发者友好:新增 LoRA 和全量微调脚本,支持深度定制;
④增强稳定性:减少音频伪影,优化长文本音频的生成效果
目前,模型已在 Github、Hugging Face 开源,欢迎大家前往体验。
🔗Huggingface:
https://huggingface.co/openbmb/VoxCPM1.5
🔗Github:
https://github.com/OpenBMB/VoxCPM
©️版权声明:若无特殊声明,本站所有文章版权均归AI导航猿和数眼智能原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容。否则,我站将依法保留追究相关法律责任的权利。
琼ICP备2025054846号-2