酷玩网

北京交通大学等机构推出多模态大模型 MMICL,支持文本图像视频输入

linx
欧意最新版本

欧意最新版本

欧意最新版本app是一款安全、稳定、可靠的数字货币交易平台。

APP下载  官网地址

据站长之家最新报道,北京交通大学联合其他研究机构近期发布了全新的多模态大型模型MMICL。该模型具备处理文本、图像、视频等多种模态数据的能力。

消息指出,MMICL在多模态基准测试MMBench和MME中均取得了令人瞩目的成绩。该模型以Flan-T5 XXL作为其核心基础模型,通过分阶段训练得以实现。第一阶段为预训练阶段,利用海量数据集进行;第二阶段则进行多模态上下文微调,采用自主构建的包含大量多模态样本的MIC数据集。这种训练策略赋予了MMICL卓越的语义理解能力,同时使其特别适用于处理复杂的多模态输入任务。目前,MMICL已对外开源,提供了基于FlanT5XL和Vicuna模型的两个版本,能够满足不同领域的商用与科研需求。

本文链接:https://www.8btc.com/article/6833354 转载时,请务必注明原文出处。

标签: