巴比特快讯,于8月12日,天津大学携手信创海河实验室共同举办了“大模型技术与评测研讨会”。在此次研讨会中,天津大学正式发布了首份《大模型评测报告》。报告对全球范围内主流的14个大语言模型进行了中文综合能力评测。评测结果显示,GPT-4与百度文心一言在综合性能上明显超出其他模型,两者得分极为接近,表现处于同一高水平。
此次评测涵盖了众多大模型,其中包括了国外的GPT-4、ChatGPT gpt-3.5-turbo、Claude-instant、Sage gpt-3.5-turbo等知名大模型,以及国内的百度文心一言、阿里通义千问、科大讯飞星火认知大模型、ChatGLM-6B、360智脑、MOSS-16B、MiniMax、baichuan-7B等。评测试题覆盖了知识问答、语言表达、逻辑推理、常识问答、文本问答、机器翻译等多个领域,题型多样。通过多维度的得分,我们可以清晰识别出不同模型的特长领域及其综合能力的优劣。
本文链接:https://www.8btc.com/article/6829612
转载时,请务必注明文章来源。
标签:
文章来源: 酷玩网
版权声明: 本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任