微软推出语音合成模型 NaturalSpeech2：语音重构“更准确”，不会“棒读”

linx 2024-10-24 20:59:10

欧意最新版本

欧意最新版本app是一款安全、稳定、可靠的数字货币交易平台。

近日，微软公司发布了新型语音模型 NaturalSpeech2。这款模型以“潜在扩散”设计为核心，在无样本语音合成领域表现出色。微软对此表示，NaturalSpeech2 是一款“商业级”的语音及歌唱解决方案，致力于为用户提供高品质、多元化的语音合成体验。

与传统语音转文字（TTS）系统相比，NaturalSpeech2 采用“连续向量”代替“离散标记”来表征语音，从而生成更加连贯的语音片段，有效避免了“生硬朗读”的问题。实验证明，在零样本环境下，NaturalSpeech2 产生的语音与语音提示及真实语音在韵律上几乎一致，且在 LibriTTS 和 VCTK 测试集中，其自然度（以 CMOS 为标准）与真人语音难以辨别。

本文链接：https://www.8btc.com/article/6827658，转载时请注明文章来源。

标签:

本文地址: https://www.famikj.com/qkzx/25245.html

文章来源: 酷玩网