语音引擎是什么？语音引擎可以应用在哪里？

linx 2024-10-23 18:55:08 2

欧意最新版本

欧意最新版本app是一款安全、稳定、可靠的数字货币交易平台。

OpenAI再掀AI生成领域高潮，揭晓一款仅需15秒语音素材即可生成高度逼真声音的Voice Engine（声音引擎）技术。

继日前推出一款能以假乱真制作写实影片的AI工具Sora之后，OpenAI再次展现了其创新力，发布了一项革命性的研究成果——一款仅需短短15秒语音素材，便能够复刻出与本人声音极为相似的音讯的新技术。这项技术有望实现“替他人发声”，但在正式推广之前，OpenAI也在深思如何规避其潜在风险。

OpenAI在官网透露，这项名为“语音引擎”（Voice Engine）的技术，最初旨在文字转语音技术以及ChatGPT的朗读功能中，仅需提供约15秒的语音材料，AI便能模仿用户的声音朗读各种文本。OpenAI官网还提供了素材与生成结果的对照音频。

OpenAI为何如此谨慎地进行测试？他们表示，旨在深入探索这项技术的应用潜力，同时深知语音生成技术若被滥用，后果不堪设想。自去年底以来，OpenAI已经与少数合作伙伴进行了私下测试，包括教育科技公司Age of Learning、AI影片创作平台HeyGen、医疗软件开发商Dimagi等，目前仅有约10家公司获得这项技术的测试权限。

所有获准的合作伙伴必须遵守其政策，不得使用该技术冒用他人或组织身份，且提供语音素材者必须明确知晓声音的用途，并告知听众这些声音是由AI生成的，而非真人。

与2月份发布的影像生成AI Sora一样，OpenAI担忧这些高度逼真的技术可能被滥用，因此正与合作伙伴积极测试并寻找解决方案。图/OpenAI

“基于我们对AI的立场和承诺，我们选择提供预览而非全面发布这项技术。”OpenAI表示，他们希望Voice Engine的预览能够展现其潜力，同时促进社会对日益逼真的生成式AI技术有更强的抵御能力。

语音引擎的应用前景如何？通过与合作伙伴的测试，OpenAI已经发现了一些潜在的应用场景，并在官网上提供了以下示例：

1. 语音朗读功能：以更自然、更具情感的声音为儿童或不阅读的人群提供语音教学内容，让更多人能够轻松吸收书本知识。

2. 翻译影片或Podcast：创作者可以输入声音，为自己的影片生成多种语言版本，吸引更多潜在观众，并在翻译中保留母语口音。

3. 为偏远地区搭建沟通桥梁：为偏远地区的人们提供即时咨询服务，甚至使用当地非正式语言进行互动式问答。

4. 帮助失声患者：让无法说话的残疾人士通过语音引擎进行语音沟通，并选择最适合他们的自然声音。目前，研究团队正在测试如何利用这项技术为失语症患者提供帮助。

语音引擎存在哪些风险？OpenAI如何防范？OpenAI表示，他们深知这项技术可能被恶意使用的可能性，正在与政府、媒体、娱乐、教育等领域的国内外合作伙伴共同努力，并积极接纳他们的反馈。

根据《Wired》的报道，AI生成的逼真语言甚至可以绕过银行的语音认证功能，诈骗团伙也可能利用这项工具冒用亲人声音，诱使他人付款或转账。尤其是在2024年11月美国总统大选临近之际，针对政客的AI攻击日益增多。

今年初，美国总统拜登的声音就被用于一通由AI生成、呼吁选民不要参加初选投票的电话录音中。图/YouTube

例如，今年初，美国政府拜登的声音就被冒用于一通捏造的电话录音中，呼吁选民不要参加初选投票，迫使白宫团队出面澄清这并非拜登总统的录音，而是有人故意破坏选举。