摘要: NeuTTS Air 是 Neuphonic 公司开发的一款先进的语音合成模型,它能够在本地设备上运行,提供超逼真的语音合成效果。该模型基于 0.5B 参数的轻量级语言模型 Qwen,结合了高效的音频编解码技术和实时语音合成能力。NeuTTS Air 支持即时语音克隆功能,只需提供 3 秒钟的音频样本即可创建个性化的语音。该模型适用于嵌入式语音助手、玩具和合规性应用等场景。
讨论: Neuphonic团队发布了Neuphonic TTS Air,这是一个轻量级的开源语音基础模型,遵循Apache 2.0协议。该模型旨在提供高质量的文本到语音转换,同时体积小巧,能够在CPU上实时运行,无需GPU、云API或速率限制。作者指出,该模型的目的是解决当前大多数语音模型依赖付费API带来的隐私问题、持续成本和外部依赖。用户可以完全控制模型,保证隐私且无边际成本。此外,Neuphonic TTS Air适用于需要设备端运行语音模型的场景,如边缘计算、辅助工具和离线应用。社区成员对此表示了兴趣,并询问了与现有模型的比较、是否支持GPU加速等问题。
原文标题:Open source speech foundation model that runs locally on CPU in real-time
原文链接:https://huggingface.co/neuphonic/neutts-air
讨论链接:https://news.ycombinator.com/item?id=45450363