酷玩网

上海交大发布大模型双语编程评估基准 CodeApex

linx
欧意最新版本

欧意最新版本

欧意最新版本app是一款安全、稳定、可靠的数字货币交易平台。

APP下载  官网地址

据机器之心最新报道,上海交通大学的APEX实验室研发了一款名为CodeApex的创新工具。该工具致力于对大型语言模型(LLMs)的编程理解和代码生成能力进行评估,并采用了中英双语的形式构建成了一个基准数据集。

为了全面评估LLMs的编程理解能力,CodeApex精心设计了三种类型的选择题,涵盖了概念理解、常识推理以及多跳推理。同时,通过算法问题和配套的测试用例,CodeApex还深入考察了LLMs在代码生成方面的能力。在针对14个不同大语言模型进行的代码任务评估中,GPT3.5-turbo展现出卓越的编程能力,在概念理解和代码生成任务上分别取得了约50%和56%的精度。这一结果揭示了大语言模型在编程领域的巨大潜力以及改进空间。

本文链接:https://www.8btc.com/article/6831950 转载时请务必注明文章来源

标签: