酷玩网

中国大模型语料数据联盟开源发布高质量多模态语料“书生・万卷”

linx
欧意最新版本

欧意最新版本

欧意最新版本app是一款安全、稳定、可靠的数字货币交易平台。

APP下载  官网地址

金十资讯于8月14日传来消息,继我国在7月份的2023世界人工智能大会上发起创建“中国大模型语料数据联盟”之后,上海人工智能实验室(以下简称上海AI实验室)今日正式对外宣布,携手语料数据联盟的各成员单位,公开发布了名为“书生・万卷”1.0的多模态预训练语料库。这一版本的“书生・万卷”1.0囊括了文本数据集、图文数据集以及视频数据集三大板块,此次开源的数据总量高达2TB以上。该语料数据集汇集了超过5亿个文本,2200万个图文混合文档,以及1000个节目影像视频,其特点包括多元融合、精细处理、价值对齐、易用高效四大优势。

本文链接:https://www.8btc.com/article/6829616 转载请注明文章出处

标签: