酷玩网

微软推出语音合成模型 NaturalSpeech2:语音重构“更准确”,不会“棒读”

欧意最新版本

欧意最新版本

欧意最新版本app是一款安全、稳定、可靠的数字货币交易平台。

APP下载  官网地址
linx
欧意最新版本

欧意最新版本

欧意最新版本app是一款安全、稳定、可靠的数字货币交易平台。

APP下载  官网地址

近日,微软公司发布了新型语音模型 NaturalSpeech2。这款模型以“潜在扩散”设计为核心,在无样本语音合成领域表现出色。微软对此表示,NaturalSpeech2 是一款“商业级”的语音及歌唱解决方案,致力于为用户提供高品质、多元化的语音合成体验。

与传统语音转文字(TTS)系统相比,NaturalSpeech2 采用“连续向量”代替“离散标记”来表征语音,从而生成更加连贯的语音片段,有效避免了“生硬朗读”的问题。实验证明,在零样本环境下,NaturalSpeech2 产生的语音与语音提示及真实语音在韵律上几乎一致,且在 LibriTTS 和 VCTK 测试集中,其自然度(以 CMOS 为标准)与真人语音难以辨别。

本文链接:https://www.8btc.com/article/6827658,转载时请注明文章来源。

标签: