0

0

AutoCodeBench— 腾讯混元开源测评大模型代码能力的数据集

DDD

DDD

发布时间:2025-08-21 11:06:51

|

298人浏览过

|

来源于php中文网

原创

AutoCodeBench是什么

autocodebench 是由腾讯混元团队推出的,专用于评估大模型代码生成能力的基准测试集。该测试集包含 3920 个编程问题,均匀覆盖 20 种主流编程语言,具备高难度、实用性强和多样性广的特点,能够全面衡量大模型在多语言环境下的代码生成表现。整个数据集通过自动化流程生成,确保数据质量与覆盖范围,并提供两个版本:轻量版 autocodebench-lite 用于快速模型对比,完整版 autocodebench-complete 适用于基础模型的评估。

sematic
sematic

一个开源的机器学习平台

下载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

AutoCodeBench— 腾讯混元开源测评大模型代码能力的数据集AutoCodeBench的主要功能

  • 多语言代码能力测评:涵盖 3920 道题目,分布于 20 种编程语言,系统评估大模型跨语言代码生成水平。
  • 高挑战性测试设计:支持构建高难度编程任务,有效暴露大模型在复杂逻辑、边界处理等方面的短板。
  • 性能差异增强机制:通过精心筛选的问题集构建 AutoCodeBench-Lite,显著放大不同模型之间的表现差距,便于精准排序与分析。
  • 基础模型专用评估:采用 3-shot 提示方式构建 AutoCodeBench-Complete,专门用于评测未经过代码微调的基础大模型。
  • 自动化数据合成:利用大语言模型生成测试用例输入,结合沙盒执行获取预期输出,自动生成高质量、可验证的代码数据。
  • 多语言执行验证支持:内置 MultiLanguageSandbox 服务,支持超过 30 种编程语言的编译与运行,确保生成代码的功能正确性。

AutoCodeBench的技术原理

  • 自动化数据生成流程:AutoCodeGen 模块使用大语言模型生成测试输入,将其送入沙盒环境执行并收集输出,从而构建完整的测试函数。采用“逆向构造”方法生成编程问题,提升问题的复杂度和多样性。通过多轮过滤策略(如重复检测、有效性验证、难度分级)确保最终数据集的高质量。
  • 广泛的多语言支持:3920 个问题平均分配至 20 种编程语言,避免评估偏差。MultiLanguageSandbox 支持 30 多种语言的运行时环境,可准确验证各语言代码的执行结果,保障评估的公平性和可靠性。
  • 高难度与真实场景结合:通过逆向生成机制构造贴近实际开发场景的复杂问题,结合策略性筛选,确保问题不仅难,而且具有现实应用价值,能有效反映模型在真实编程任务中的适应能力。

AutoCodeBench的项目地址

AutoCodeBench的应用场景

  • 模型能力全面评估:可用于系统性评测大模型在多种编程语言下的代码生成准确率与鲁棒性,识别其优势与不足。
  • 高质量数据集建设:为代码生成领域提供可复用、高难度的数据资源,支持定制化数据集构建,助力模型训练优化。
  • 多语言性能验证:评估模型对主流及低资源编程语言的支持能力,推动多语言代码生成技术的发展。
  • 训练与迭代验证:作为补充训练数据或定期测试集,提升模型处理复杂编程任务的能力,并监控训练进展。
  • 学术研究与工业落地:为学术界提供标准化评测基准,同时支持企业开发更可靠的代码辅助工具,加速AI编程产品的优化与部署。

相关专题

更多
http500解决方法
http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

266

2023.11.09

http请求415错误怎么解决
http请求415错误怎么解决

解决方法:1、检查请求头中的Content-Type;2、检查请求体中的数据格式;3、使用适当的编码格式;4、使用适当的请求方法;5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容,可以阅读下面的文章。

385

2023.11.14

HTTP 503错误解决方法
HTTP 503错误解决方法

HTTP 503错误表示服务器暂时无法处理请求。想了解更多http错误代码的相关内容,可以阅读本专题下面的文章。

1025

2024.03.12

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1659

2024.08.16

PHP 命令行脚本与自动化任务开发
PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境(CLI)下的开发与应用,内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理,以及与 Linux 定时任务(Cron)的结合使用。通过实战示例,帮助开发者掌握使用 PHP 构建 自动化脚本、批处理工具与后台任务程序 的能力。

21

2025.12.13

vlookup函数使用大全
vlookup函数使用大全

本专题整合了vlookup函数相关 教程,阅读专题下面的文章了解更多详细内容。

28

2025.12.30

金山文档相关教程
金山文档相关教程

本专题整合了金山文档相关教程,阅读专题下面的文章了解更多详细操作。

29

2025.12.30

PS反选快捷键
PS反选快捷键

本专题整合了ps反选快捷键介绍,阅读下面的文章找到答案。

25

2025.12.30

表格中一行两行的方法
表格中一行两行的方法

本专题整合了表格中一行两行的相关教程,阅读专题下面的文章了解更多详细内容。

4

2025.12.30

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 2.3万人学习

Git版本控制工具
Git版本控制工具

共8课时 | 1.5万人学习

Git中文开发手册
Git中文开发手册

共0课时 | 0人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号