据站长之家于8月18日披露,字节跳动最新推出了全新的大型语言模型——BuboGPT。这款模型堪称行业佼佼者,具备将文本、图像与音频等多模态信息融合处理的能力,更拥有一项特殊技能,即能将回复内容与视觉对象进行精准匹配。它在理解对齐或非对齐的图像音频数据方面展现出卓越的对话能力。
凭借文字描述、图像定位与声音定位,BuboGPT能够精确地判定声音来源。即便音频与图像之间并无直接关联,它也能合理解释两者之间可能存在的联系。研究团队指出,相较于其他多模态大模型,BuboGPT通过丰富且明确的文本与其他模态间的信息对应关系,实现了对视觉对象及指定模态的精细解读。此外,研究人员还展示了BuboGPT在图像描述、声音来源识别等方面的强大功能,并已开源代码和数据集,推出了可供体验的demo。
本文链接:https://www.8btc.com/article/6830136,转载时请务必注明文章来源。
标签:
文章来源: 酷玩网
版权声明: 本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任