中国大模型语料数据联盟开源发布高质量多模态语料“书生・万卷”

linx 2024-10-24 16:51:10 1

欧意最新版本

欧意最新版本app是一款安全、稳定、可靠的数字货币交易平台。

金十资讯于8月14日传来消息，继我国在7月份的2023世界人工智能大会上发起创建“中国大模型语料数据联盟”之后，上海人工智能实验室（以下简称上海AI实验室）今日正式对外宣布，携手语料数据联盟的各成员单位，公开发布了名为“书生・万卷”1.0的多模态预训练语料库。这一版本的“书生・万卷”1.0囊括了文本数据集、图文数据集以及视频数据集三大板块，此次开源的数据总量高达2TB以上。该语料数据集汇集了超过5亿个文本，2200万个图文混合文档，以及1000个节目影像视频，其特点包括多元融合、精细处理、价值对齐、易用高效四大优势。

本文链接：https://www.8btc.com/article/6829616 转载请注明文章出处

标签:

本文地址: https://www.famikj.com/qkzx/24782.html

文章来源: 酷玩网