金十资讯于8月14日传来消息,继我国在7月份的2023世界人工智能大会上发起创建“中国大模型语料数据联盟”之后,上海人工智能实验室(以下简称上海AI实验室)今日正式对外宣布,携手语料数据联盟的各成员单位,公开发布了名为“书生・万卷”1.0的多模态预训练语料库。这一版本的“书生・万卷”1.0囊括了文本数据集、图文数据集以及视频数据集三大板块,此次开源的数据总量高达2TB以上。该语料数据集汇集了超过5亿个文本,2200万个图文混合文档,以及1000个节目影像视频,其特点包括多元融合、精细处理、价值对齐、易用高效四大优势。
本文链接:https://www.8btc.com/article/6829616 转载请注明文章出处
标签:
文章来源: 酷玩网
版权声明: 本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任