根据《The Decoder》的报道,艾伦人工智能研究所(简称AI2)推出了一个包含丰富网络内容、科学出版物、代码与书籍的三万亿token的开源数据集——Dolma。这一数据集堪称目前公开数据集中的最大规模。Dolma是AI2正在开发的开放语言模型(OLMo)的基石。OLMo作为AI2的力作,预计将在2024年初面世,其目标是成为业内领先的“最佳开放语言模型”。Dolma的初始版本主要针对英文文本,目前开发者和研究者可通过Hugging Face平台访问这一数据集。
本文章链接:https://www.8btc.com/article/6830628 转载时请标明文章来源
标签:
文章来源: 酷玩网
版权声明: 本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任