0

0

清华团队提出知识引导的图 Transformer 预训练框架:提高分子表征学习的方法

WBOY

WBOY

发布时间:2023-11-23 18:17:07

|

1323人浏览过

|

来源于机器之心

转载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

清华团队提出知识引导的图 transformer 预训练框架:提高分子表征学习的方法

编辑 | 紫罗

为了促进分子特性预测,在药物发现领域,学习有效的分子特征表征非常重要。最近,人们通过采用自监督学习技术,预先训练图神经网络(GNN)来克服数据稀缺的挑战。然而,目前基于自监督学习的方法存在两个主要问题:缺乏明确的自监督学习策略和 GNN 的能力有限

近日,来自清华大学、西湖大学和之江实验室的研究团队,提出了知识引导的图 Transformer 预训练(Knowledge-guided Pre-training of Graph Transformer,KPGT),这是一种自监督学习框架,通过显著增强的分子表征学习提供改进的、可泛化和稳健的分子特性预测。KPGT 框架集成了专为分子图设计的图 Transformer 和知识引导的预训练策略,以充分捕获分子的结构和语义知识。

通过对 63 个数据集进行广泛的计算测试,KPGT 在预测各个领域的分子特性方面表现出了卓越的性能。此外,通过鉴定两种抗肿瘤靶点的潜在抑制剂验证了 KPGT 在药物发现中的实际适用性。总体而言,KPGT 可以为推进 AI 辅助药物发现过程提供强大且有用的工具。

该研究以《A knowledge-guided pre-training framework for improving molecular representation learning》为题,于 2023 年 11 月 21 日发布在《Nature Communications》上。

清华团队提出知识引导的图 Transformer 预训练框架:提高分子表征学习的方法

通过实验确定分子特性需要大量时间和资源,鉴定具有所需特性的分子是药物发现领域最重大的挑战之一。近年来,基于人工智能的方法在预测分子特性方面发挥着越来越重要的作用。基于人工智能的分子特性预测方法的主要挑战之一是分子的表征

近年来,基于深度学习的方法的出现成为预测分子特性的潜在有用工具,主要是因为它们具有从简单输入数据中自动提取有效特征的卓越能力。值得注意的是,各种神经网络架构,包括循环神经网络(RNN)、卷积神经网络(CNN)和图神经网络(GNN)擅长对各种格式的分子数据进行建模,从简化的分子输入行输入系统(SMILES)到分子图像和分子图。然而,标记分子的有限可用性和化学空间的广阔限制了它们的预测性能,特别是在处理分布外数据样本时。

随着自监督学习方法在自然语言处理和计算机视觉领域取得的显著成就,这些技术已被应用于预训练 GNN 并改进分子的表征学习,从而在下游分子性质预测任务中取得了实质性的进展

研究人员假设将定量描述分子特征的额外知识引入自监督学习框架可以有效应对这些挑战。分子有许多定量特征,例如分子描述符和指纹,可以通过当前建立的计算工具轻松获得。整合这些额外的知识可以将丰富的分子语义信息引入自监督学习中,从而大大增强语义丰富的分子表征的获取。

通常,现有的自监督学习方法依赖于GNN作为核心模型。然而,GNN的模型容量有限。此外,GNN可能很难捕捉原子之间的远程交互。而基于Transformer的模型已经成为一种改变游戏规则的模型。它的特点是参数数量不断增加,并且能够捕捉到长程相互作用,为全面模拟分子的结构特征提供了有希望的途径

自监督学习框架 KPGT

在这项研究中,研究人员引入了一种名为 KPGT 的自监督学习框架,旨在加强分子表征学习,从而推动下游的分子属性预测任务。KPGT 框架由两个主要组件组成:一个被称为 Line Graph Transformer(LiGhT)的主干模型和一个知识引导的预训练策略。KPGT 框架结合了高容量的 LiGhT 模型,该模型专门用于准确建模分子图结构,并利用知识引导的预训练策略来捕捉分子结构和语义知识

研究团队使用ChEMBL29数据集中的约200万个分子,通过知识引导的预训练策略对LiGhT进行了预训练

HTTPie AI
HTTPie AI

AI API开发工具

下载

清华团队提出知识引导的图 Transformer 预训练框架:提高分子表征学习的方法

重写内容为:图表:KPGT 概述。(资料来源:论文)

KPGT 在分子性质预测方面优于基线方法。与几种基线方法相比,KPGT 在 63 个数据集上取得了很大的进步。

清华团队提出知识引导的图 Transformer 预训练框架:提高分子表征学习的方法

图示:KPGT 和基线方法在分子性质预测方面的比较评估。(来源:论文)

此外,通过成功利用 KPGT 识别造血祖细胞激酶 1 (HPK1) 和成纤维细胞生长因子受体 (FGFR1) 两个抗肿瘤靶点的潜在抑制剂,展示了 KPGT 的实际应用性。

清华团队提出知识引导的图 Transformer 预训练框架:提高分子表征学习的方法

图示:使用 KPGT 识别 HPK1 抑制剂。(来源:论文)

清华团队提出知识引导的图 Transformer 预训练框架:提高分子表征学习的方法

图示:使用 KPGT 识别 FGFR1 抑制剂。(来源:论文)

研究局限性

尽管 KPGT 在有效分子特性预测方面具有优势,但仍然存在一些局限性。

  • 首先,附加知识的整合是所提方法最显著的特征。除了 KPGT 中使用的 200 个分子描述符和 512 个 RDKFP 之外,还有可能纳入各种其他类型的附加信息知识。
  • 此外,进一步的研究可以将三维 (3D) 分子构象整合到预训练过程中,从而使模型能够捕获有关分子的重要 3D 信息,并有可能增强表征学习能力。
  • 虽然 KPGT 目前采用具有大约 1 亿个参数的主干模型,以及对 200 万个分子的预训练,但探索更大规模的预训练可以为分子表征学习提供更实质性的好处。

总的来说,KPGT 为有效的分子表征学习提供了强大的自监督学习框架,从而推动了人工智能辅助药物发现领域的发展。

论文链接:https://www.nature.com/articles/s41467-023-43214-1

相关专题

更多
人工智能在生活中的应用
人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容,供大家免费下载体验。

401

2023.08.17

人工智能的基本概念是什么
人工智能的基本概念是什么

人工智能的英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

289

2024.01.09

人工智能不能取代人类的原因是什么
人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

620

2024.09.10

Python 人工智能
Python 人工智能

本专题聚焦 Python 在人工智能与机器学习领域的核心应用,系统讲解数据预处理、特征工程、监督与无监督学习、模型训练与评估、超参数调优等关键知识。通过实战案例(如房价预测、图像分类、文本情感分析),帮助学习者全面掌握 Python 机器学习模型的构建与实战能力。

32

2025.10.21

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1661

2024.08.16

vlookup函数使用大全
vlookup函数使用大全

本专题整合了vlookup函数相关 教程,阅读专题下面的文章了解更多详细内容。

28

2025.12.30

金山文档相关教程
金山文档相关教程

本专题整合了金山文档相关教程,阅读专题下面的文章了解更多详细操作。

29

2025.12.30

PS反选快捷键
PS反选快捷键

本专题整合了ps反选快捷键介绍,阅读下面的文章找到答案。

25

2025.12.30

表格中一行两行的方法
表格中一行两行的方法

本专题整合了表格中一行两行的相关教程,阅读专题下面的文章了解更多详细内容。

4

2025.12.30

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 0.6万人学习

Python 教程
Python 教程

共137课时 | 6.9万人学习

Java 教程
Java 教程

共578课时 | 39.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号