近日,微软公司发布了新型语音模型 NaturalSpeech2。这款模型以“潜在扩散”设计为核心,在无样本语音合成领域表现出色。微软对此表示,NaturalSpeech2 是一款“商业级”的语音及歌唱解决方案,致力于为用户提供高品质、多元化的语音合成体验。
与传统语音转文字(TTS)系统相比,NaturalSpeech2 采用“连续向量”代替“离散标记”来表征语音,从而生成更加连贯的语音片段,有效避免了“生硬朗读”的问题。实验证明,在零样本环境下,NaturalSpeech2 产生的语音与语音提示及真实语音在韵律上几乎一致,且在 LibriTTS 和 VCTK 测试集中,其自然度(以 CMOS 为标准)与真人语音难以辨别。
本文链接:https://www.8btc.com/article/6827658,转载时请注明文章来源。
标签:
文章来源: 酷玩网
版权声明: 本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任