继日前推出一款能以假乱真制作写实影片的AI工具Sora之后,OpenAI再次展现了其创新力,发布了一项革命性的研究成果——一款仅需短短15秒语音素材,便能够复刻出与本人声音极为相似的音讯的新技术。这项技术有望实现“替他人发声”,但在正式推广之前,OpenAI也在深思如何规避其潜在风险。
OpenAI在官网透露,这项名为“语音引擎”(Voice Engine)的技术,最初旨在文字转语音技术以及ChatGPT的朗读功能中,仅需提供约15秒的语音材料,AI便能模仿用户的声音朗读各种文本。OpenAI官网还提供了素材与生成结果的对照音频。OpenAI为何如此谨慎地进行测试?他们表示,旨在深入探索这项技术的应用潜力,同时深知语音生成技术若被滥用,后果不堪设想。自去年底以来,OpenAI已经与少数合作伙伴进行了私下测试,包括教育科技公司Age of Learning、AI影片创作平台HeyGen、医疗软件开发商Dimagi等,目前仅有约10家公司获得这项技术的测试权限。
所有获准的合作伙伴必须遵守其政策,不得使用该技术冒用他人或组织身份,且提供语音素材者必须明确知晓声音的用途,并告知听众这些声音是由AI生成的,而非真人。
与2月份发布的影像生成AI Sora一样,OpenAI担忧这些高度逼真的技术可能被滥用,因此正与合作伙伴积极测试并寻找解决方案。图/OpenAI
“基于我们对AI的立场和承诺,我们选择提供预览而非全面发布这项技术。”OpenAI表示,他们希望Voice Engine的预览能够展现其潜力,同时促进社会对日益逼真的生成式AI技术有更强的抵御能力。
语音引擎的应用前景如何?通过与合作伙伴的测试,OpenAI已经发现了一些潜在的应用场景,并在官网上提供了以下示例:
1. 语音朗读功能:以更自然、更具情感的声音为儿童或不阅读的人群提供语音教学内容,让更多人能够轻松吸收书本知识。
2. 翻译影片或Podcast:创作者可以输入声音,为自己的影片生成多种语言版本,吸引更多潜在观众,并在翻译中保留母语口音。
3. 为偏远地区搭建沟通桥梁:为偏远地区的人们提供即时咨询服务,甚至使用当地非正式语言进行互动式问答。
4. 帮助失声患者:让无法说话的残疾人士通过语音引擎进行语音沟通,并选择最适合他们的自然声音。目前,研究团队正在测试如何利用这项技术为失语症患者提供帮助。
语音引擎存在哪些风险?OpenAI如何防范?OpenAI表示,他们深知这项技术可能被恶意使用的可能性,正在与政府、媒体、娱乐、教育等领域的国内外合作伙伴共同努力,并积极接纳他们的反馈。
根据《Wired》的报道,AI生成的逼真语言甚至可以绕过银行的语音认证功能,诈骗团伙也可能利用这项工具冒用亲人声音,诱使他人付款或转账。尤其是在2024年11月美国总统大选临近之际,针对政客的AI攻击日益增多。
今年初,美国总统拜登的声音就被用于一通由AI生成、呼吁选民不要参加初选投票的电话录音中。图/YouTube
例如,今年初,美国政府拜登的声音就被冒用于一通捏造的电话录音中,呼吁选民不要参加初选投票,迫使白宫团队出面澄清这并非拜登总统的录音,而是有人故意破坏选举。
为了防止AI语音技术的滥用,OpenAI除了在政策上进行规范外,还实施了一系列安全措施,包括为所有生成内容添加浮水印、追踪所有生成内容的使用方式,以及推出禁止名单,防止部分公众人物、知名人士的声音被滥用。
标签: 比特币挖矿