Google DeepMind 最新力作——生成式互动环境AI模型Genie问世,该模型通过文字或图片提示即可产出互动式动画游戏,无需预先在游戏机制和运作上进行专门训练。
自2014年被Google收购以来,Google DeepMind在23日提交的论文中透露,他们推出了名为“Genie”的生成式互动环境AI模型,它能够仅通过文字、图片或草图描述,便生成可控制的互动虚拟环境。
据内容描述,Genie通过大量公开可用的网络视频进行训练,而不是依赖于特定游戏或场景的数据,这使得它在游戏开发、创意娱乐等领域具有更广泛的应用性:
作为生成式AI的又一突破,我们推出了生成式互动环境“Genie”,它能够通过单一图片提示产生互动式且可游玩的环境。
什么是Genie?它采用多模型架构,包括时空视频分词器、自回归动态模型和可扩展的潜在动作模型,共计110亿个参数。
Genie能够在未接收到指令的情况下,从网络上的2D平台游戏及机器人技术视频中进行无监督的自主训练;同时也能通过提供的图像提示,如现实世界的照片或草图,生成人们可以控制并互动的虚拟环境。
Genie能够从网络视频中学习并重现游戏角色的控制内容,即使这些视频没有关于正在执行动作的标签,它也能从生成的环境中推断出一致或多种的潜在动作。
此外,Genie还能学习并辨识动作中哪些部分是可控制的,并以此产生互动式情境。一张图片就能让Genie创造一个完整的互动环境,它首先利用文字转影像的生成模型Imagen 2生成关键帧,然后通过Genie为影像赋予动态效果。
Genie不仅能通过合成图片生成互动式动画环境,还能接收从未见过的图片提示,如现实世界的照片或简单草图,使人们能与原本无法移动的现实事物进行互动。
部落格文章指出,Genie的功能让任何人,甚至儿童,都能创建并进入可控的模拟环境或互动生成世界。
文末也提到了Genie产品的宏伟目标:Genie的应用不仅限于娱乐或创意开发,它还可以作为训练智慧型代理人的优秀测试平台,从而推动AI领域的发展。
据悉,智慧型代理人指的是一个能够观察周围环境并采取行动以实现目标的自主实体,这是目前AI研究的一个核心概念和重要目标。
近几个月来,Google已推出多个生成式AI模型的产品或信息,包括最强AI顾问“Gemini”、文字转影片生成工具“Lumiere”以及关键字图片生成工具“ImageFX”,都引起了广泛关注。
另一方面,OpenAI的文字转影片工具Sora作为首个影片生成产品,也在几周前引发了AI热潮。
然而,近期有关Gemini在生成图像时涉及种族争议,导致母公司Alphabet股价在26日下跌逾4%。
在昨日的世界行动通讯大会(MWC Barcelona 2024)上,Google DeepMind研究部门负责人Demis Hassabis表示,他们已将Gemini的该功能下架,将在未来几周内修复问题并恢复。
标签: 比特币挖矿