酷玩网

人工智能研究所 AI2 发布最大的 LLM 开源数据集 Dolma,包含 3 万亿 Tokens

linx
欧意最新版本

欧意最新版本

欧意最新版本app是一款安全、稳定、可靠的数字货币交易平台。

APP下载  官网地址

根据《The Decoder》的报道,艾伦人工智能研究所(简称AI2)推出了一个包含丰富网络内容、科学出版物、代码与书籍的三万亿token的开源数据集——Dolma。这一数据集堪称目前公开数据集中的最大规模。Dolma是AI2正在开发的开放语言模型(OLMo)的基石。OLMo作为AI2的力作,预计将在2024年初面世,其目标是成为业内领先的“最佳开放语言模型”。Dolma的初始版本主要针对英文文本,目前开发者和研究者可通过Hugging Face平台访问这一数据集。

本文章链接:https://www.8btc.com/article/6830628 转载时请标明文章来源

标签: