上海交大发布大模型双语编程评估基准 CodeApex

linx 2024-10-24 10:39:09 2

欧意最新版本

欧意最新版本app是一款安全、稳定、可靠的数字货币交易平台。

据机器之心最新报道，上海交通大学的APEX实验室研发了一款名为CodeApex的创新工具。该工具致力于对大型语言模型（LLMs）的编程理解和代码生成能力进行评估，并采用了中英双语的形式构建成了一个基准数据集。

为了全面评估LLMs的编程理解能力，CodeApex精心设计了三种类型的选择题，涵盖了概念理解、常识推理以及多跳推理。同时，通过算法问题和配套的测试用例，CodeApex还深入考察了LLMs在代码生成方面的能力。在针对14个不同大语言模型进行的代码任务评估中，GPT3.5-turbo展现出卓越的编程能力，在概念理解和代码生成任务上分别取得了约50%和56%的精度。这一结果揭示了大语言模型在编程领域的巨大潜力以及改进空间。

本文链接：https://www.8btc.com/article/6831950 转载时请务必注明文章来源

标签:

本文地址: https://www.famikj.com/qkzx/24047.html

文章来源: 酷玩网