讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

中国科大、科大讯飞团队开发ChemEval：化学大模型多层次多维度能力评估的新基准

霞舞

发布时间：2024-10-05 18:46:14

|

796人浏览过

|

来源于机器之心

转载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

中国科大、科大讯飞团队开发chemeval：化学大模型多层次多维度能力评估的新基准

编辑｜ ScienceAI

近日，认知智能全国重点实验室、中国科学技术大学陈恩红教授团队，科大讯飞研究院 AI for Science 团队发布了论文《ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models》，介绍了新研发的一个面向化学领域大模型能力的多层次多维度评估框架 ChemEval。

中国科大、科大讯飞团队开发ChemEval：化学大模型多层次多维度能力评估的新基准

论文链接: https://arxiv.org/pdf/2409.13989

项目链接: https://github.com/USTC-StarTeam/ChemEval

研究动机

自然语言处理（NLP）领域中，大语言模型（LLMs）显著提升了语言理解和生成能力。随着 LLMs 在垂直领域的广泛应用，探索其在科学研究中的应用成为热点，尤其是在化学领域。

化学涉及复杂的分子结构、性质和反应机制，对 LLMs 提出挑战和机遇。

LLMs 处理文本数据的优势，在化学领域面临独特挑战：

化学专业术语众多
分子间相互作用复杂
需深刻理解高级化学知识

这些挑战凸显了系统评估 LLMs 化学领域能力的必要性，以衡量其实际能力和识别应用领域。

现有的基准测试（如 MMLU）涵盖广泛领域，但评估任务主要限于基础概念问答，缺少对深层次能力的评估。而 ChemLLMbench 等基准专注于化学任务，但评估未涉及分子理解、化学知识推演等高阶能力。

因此，本文构建了 ChemEval，一个针对化学领域的多维度能力评估体系。

ChemEval 设计基于一个核心理念：全面评估 LLMs 在化学领域的基础知识掌握和高级概念理解应用能力。

通过一系列精心设计的多级任务，ChemEval 评估 LLMs 在化学基础问题到高级挑战（分子结构理解、化学反应预测、科学知识推断等）方面的能力。

ChemEval 不仅为化学领域 LLMs 应用提供评估见解，还为未来模型优化和应用开辟新道路。

中国科大、科大讯飞团队开发ChemEval：化学大模型多层次多维度能力评估的新基准

图 1：ChemEval 概览

基准介绍和构建

本研究建立了一个名为 ChemEval 的基准，致力于评估化学领域内大语言模型 (LLM) 的能力，弥补当前化学领域缺乏多层级、多维度任务体系评估基准的空白。

该基准包括化学领域能力的四个等级，每个等级涉及多个化学评估维度，确保对 LLM 的全面评估。ChemEval 通过一系列精心设计的任务来衡量大模型理解和推断化学知识的能力。

高等知识问答

「高等知识问答」维度旨在评估模型对核心化学概念和原理的理解能力。包括客观问答和主观问答两个维度，共 5 个不同的任务，评估模型在化学术语、定量分析等领域的洞察力。

其中，客观问答通过多项选择、填空题等任务评估模型的基本知识掌握程度。此外，主观问答要求模型提供详细的解决方案或理由，反映其对化学原理的理解和应用能力。

文献理解

「文献理解」维度用于评估模型从科学文献中提取关键信息和归纳总结的能力，包括信息抽取和归纳生成两个维度，共 15 项任务。

信息抽取任务涉及识别化学实体、反应底物和催化类型等，确保模型能够定位和抽取文本中的化学信息。归纳生成任务要求模型根据现有数据和知识生成总结性的内容，如文献摘要和反应类型识别归纳等。

分子理解

「分子理解」维度考察模型在分子水平上的理解和生成能力。包括分子名称生成、分子名称翻译、分子性质预测和分子描述四个维度，共 9 项任务。

九歌

九歌--人工智能诗歌写作系统

下载

分子名称生成任务评估模型生成有效化学结构表示的能力。分子名称翻译任务通过模型在不同格式之间转换分子名称，评估模型理解各种格式的分子名称以及互译的能力。分子特性预测任务关注分子的物理、化学等属性的知识掌握能力。分子描述任务则评估模型从分子结构中预测物理化学性质的能力。

科学知识推演

「科学知识推演」维度重点评估模型在化学研究中的推理和创新能力，包括逆合成分析、反应条件推荐、反应结果预测和反应机制分析四个关键维度，共 13 项任务。逆合成分析任务评估模型合成路径的分析规划能力。

反应条件推荐任务用于评估特定化学反应条件推荐的准确性。反应结果预测任务旨在评估模型预测化学反应结果的能力。反应机制分析任务考察模型从反应物转化为产物的步骤分析能力。

综上所述，ChemEval 通过精心设计的任务和数据集，覆盖了化学研究的多个层面。如图 1 所示，ChemEval 包含化学领域的 4 个关键层级，评估了 12 个维度的 LLM 能力，涵盖了 42 个独特的化学任务。

这些任务由开源数据和化学专家精心设计的数据构成，确保了任务的实用价值，并能有效评估 LLM 的能力。fenye图 2：任务层级及任务类型

数据集构建过程

这项研究对大模型进行了全面的评估工作，其中数据来源主要包括开源数据和领域专家数据。

开源数据通过关键词检索并下载相关的开源数据集，从中筛选化学评估方向的下游任务，并下载这些任务的官方数据集。
同时，领域专家从科学文献、专业教材以及化学实验数据中手动构建了部分任务类型对应的问答对。

在数据处理阶段，需要对化学领域原始数据进行了仔细筛选和过滤，以适应多样的任务需求。

对于高级知识问答，主要从本科和研究生教材及教辅材料中编制了广泛的问答对，涵盖有机化学、无机化学、材料化学等七个类别，确保化学概念和原理的多样性。

对于文献理解，从科学文献中提取相关片段和问题，结合任务特定答案创建测试集。分子理解和科学知识推演则结合开放数据集与实验室专有数据，设计测试集以满足下游任务的评估需求。

实验结果

在 ChemEval 的基准测试中，一共评估了 12 个主流的 LLMs，包括 8 个通用模型和 4 个化学领域模型。

实验结果表明，尽管像 GPT-4 和 Claude-3.5 这样的通用 LLMs 在文献理解和指令遵循方面表现出色，但它们在需要高级化学知识的任务上表现不佳。

相反，化学的领域 LLMs 表现出更强的化学能力，但它们的文献理解能力有所下降。

中国科大、科大讯飞团队开发ChemEval：化学大模型多层次多维度能力评估的新基准

图 3：主要实验结果。

结论：

化学领域模型在需要深层化学知识的任务上优于通用模型。
大语言模型难以在没有严格格式化约束的情况下一致地生成准确的化学公式。
化学领域模型在遵循指令方面的能力明显低于通用模型。

详情：

任务设计、评估指标和子任务实验结果参见 ChemEval 原文。

意义：

这项工作提供了以下见解：

LLMs 在化学研究中的应用
LLMs 在化学领域的优化和应用

团队介绍：

认知智能全国重点实验室

主页：https://cogskl.iflytek.com/
由科大讯飞和中国科学技术大学联合共建
国家级科研平台，2022 年入选全国重点实验室

科大讯飞研究院

成立于 2005 年
专注于人工智能核心技术研究
在智能语音、计算机视觉、自然语言处理等领域取得领先成果

相关文章

WonderDynamics连Blender咋优AI动画_WonderDynamics连Blender优AI动画步骤【精要】

Animaker联动Trello如何管AI动画项目_Animaker联Trello管AI动画项目思路【经验】

AI绘画StableDiffusion如何选模型_AI绘画StableDiffusion选模型窍门【攻略】

智谱清言如何批量改写段落_上传文本选模式高效换表述【窍门】

CorelDRAW导入PS批量会乱序吗_CorelDRAW批量排序法【处置】

相关标签:

git claude for github 人工智能 nlp https gpt

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：mini-GPT4o来了? 能看、能听、会说，还情感丰富的多模态全能助手EMOVA 下一篇：更简单、更清晰，解析核酸、蛋白、细胞等结构，AI实现快速分子模式挖掘

作者最新文章

一辆小鹏P7遭火车撞击后车主幸存何小鹏发文回应

2026-01-17 11:07

如何在 Tkinter 中正确更新 Frame 的高度并立即生效

2026-01-17 11:07

如何正确使用 Go 的 sort.Search 查找有序切片中元素的首个位置

2026-01-17 11:10

《圣歌》折戟内幕曝光！不愿承认它和《命运》很像

2026-01-17 11:11

国产地域压制型SRPG《息风谷战略》Steam发售：首发价43元获特别好评

2026-01-17 11:13

如何为多个同名 class 元素批量绑定事件监听器并动态控制模态框

2026-01-17 11:15

如何在 React 中逐条渲染 API 返回的多条数据到组件中

2026-01-17 11:23

《全境封锁》制作人朱立安宣布退出育碧转投《战地》工作室

2026-01-17 11:25

网易《第五人格》被骂上热搜！偷偷减布料、修整身形？

2026-01-17 11:27

Beego 生产环境启用访问日志的正确配置方法

2026-01-17 11:28

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

更多

人工智能在生活中的应用

人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容，供大家免费下载体验。

411

2023.08.17

人工智能的基本概念是什么

人工智能的基本概念是什么

人工智能的英文缩写为AI，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

301

2024.01.09

人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

628

2024.09.10

Python 人工智能

Python 人工智能

本专题聚焦 Python 在人工智能与机器学习领域的核心应用，系统讲解数据预处理、特征工程、监督与无监督学习、模型训练与评估、超参数调优等关键知识。通过实战案例（如房价预测、图像分类、文本情感分析），帮助学习者全面掌握 Python 机器学习模型的构建与实战能力。

33

2025.10.21

http与https有哪些区别

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1983

2024.08.16

高德地图升级方法汇总

高德地图升级方法汇总

本专题整合了高德地图升级相关教程，阅读专题下面的文章了解更多详细内容。

44

2026.01.16

全民K歌得高分教程大全

全民K歌得高分教程大全

本专题整合了全民K歌得高分技巧汇总，阅读专题下面的文章了解更多详细内容。

89

2026.01.16

C++ 单元测试与代码质量保障

C++ 单元测试与代码质量保障

本专题系统讲解 C++ 在单元测试与代码质量保障方面的实战方法，包括测试驱动开发理念、Google Test/Google Mock 的使用、测试用例设计、边界条件验证、持续集成中的自动化测试流程，以及常见代码质量问题的发现与修复。通过工程化示例，帮助开发者建立可测试、可维护、高质量的 C++ 项目体系。

25

2026.01.16

java数据库连接教程大全

java数据库连接教程大全

本专题整合了java数据库连接相关教程，阅读专题下面的文章了解更多详细内容。

36

2026.01.15

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

Git 教程

Git 教程

共21课时 | 2.7万人学习

Django 教程

Django 教程

共28课时 | 3.2万人学习

MySQL 教程

MySQL 教程

共48课时 | 1.8万人学习

最新文章

更多

AI抠图哪个品牌容错高_容错高AI抠图选BgSub少返工【测评】

来自东方的“降维打击” 美国特斯拉车主试驾极氪后感叹

两家中国企业进入全球汽车销量TOP 10 增速超18%

阿维塔回应南宁15辆车连撞交通事故：辅助驾驶未激活

AI音乐生成器终极指南：免费、付费及使用技巧

ObsidianAI插件能生成交互式图表吗_能授知识关联术【联知】

NeuralFrames用Artbreeder怎生AI动画画风_NeuralFrames用Artbreeder生AI动画画风招式【锦囊】

AI绘画ChilloutMix怎么融跨次元_AI绘画ChilloutMix融次元法【技巧】

怎么用ai换背景_AI智能抠图与图片背景无缝替换操作方法

文心一格如何调笔触肌理插画_文心一格笔触肌理术【手法】

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部