0

0

中国科学院团队创造了一种统一框架,用于提高酶动力学参数的预测准确性

王林

王林

发布时间:2024-01-10 14:50:28

|

1183人浏览过

|

来源于机器之心

转载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

降低预测误差,中国科学院团队开发用于预测酶动力学参数的统一框架

编辑 | 萝卜皮

酶动力学参数的预测对于生物技术和工业应用中酶的设计和优化至关重要,然而目前的预测工具在各种任务上的有限性能限制了它们的实际应用。

中国科学院的研究人员最近提出了UniKP,这是一个基于预训练语言模型的统一框架,可用于预测酶动力学参数,包括酶周转数(kcat)、米氏常数(Km)和催化效率(kcat/Km),这些参数是从蛋白质序列和底物结构中获得的。

还提出了基于UniKP (EF-UniKP) 的双层框架,能够在考虑环境因素(如 pH 值和温度)的情况下,稳定地预测 kcat 值。同时,研究团队还系统地探索了四种代表性的重新加权方法,成功地降低了高价值预测任务中的预测误差。

该研究题为《UniKP: a unified framework for the prediction of enzyme kinetic parameters》,于2023年12月11日在《Nature Communications》杂志上发表。

降低预测误差,中国科学院团队开发用于预测酶动力学参数的统一框架

研究酶对特定底物的催化效率是生物学中的一个重要问题,对酶的进化、代谢工程和合成生物学具有深远影响。测量kcat和Km的体外实验数据,以及最大周转率和米氏常数,可以作为衡量酶催化特定反应效率的指标,用于比较不同酶的相对催化活性。

目前,酶动力学参数的测量主要依靠实验测量,耗时、成本高、劳动强度大,导致实验测量的动力学参数值数据库很小。例如,序列数据库 UniProt 包含超过 2.3 亿条酶序列,而酶数据库 BRENDA 和 SABIO-RK 包含数万个实验测量的 kcat 值。Uniprot 标识符在这些酶数据库中的集成促进了测量参数和蛋白质序列之间的连接。然而,与酶序列的数量相比,这些连接的规模仍然小得多,限制了定向进化和代谢工程等下游应用的进展。

酶动力学参数预测框架

在这项研究中,中国科学院的研究人员提出了一种名为UniKP的新框架,它基于预训练语言模型,旨在提高预测酶动力学参数的准确性。这些参数包括kcat、Km和kcat / Km,可以根据给定的酶序列和底物结构进行预测。研究人员对16种不同的机器学习模型和2种深度学习模型进行了全面比较,并发现UniKP在预测准确性方面表现出色。该研究有望为酶动力学领域的研究和应用提供新的工具和方法。

降低预测误差,中国科学院团队开发用于预测酶动力学参数的统一框架

堆友
堆友

Alibaba Design打造的设计师全成长周期服务平台,旨在成为设计师的好朋友

下载

图示:UniKP 概述。(来源:论文)

与之前最先进的模型 DLKcat 相比,UniKP 在 kcat 预测任务中表现出了卓越的性能,平均决定系数为 0.68,提高了 20%。研究人员推测,预训练模型通过使用整个数据库中的无监督信息创建易于学习的酶序列和底物结构表示,对 UniKP 的性能做出了巨大贡献。

对模型学习的分析表明,蛋白质信息具有主导作用,这可能是由于酶结构与底物结构相比的复杂性。此外,UniKP 可以有效捕获酶及其突变体之间 kcat 值的微小差异,包括实验测量的情况,这对于酶的设计和修饰至关重要。UniKP 预测值的 R^2 与 gmean 方法的 R^2 的高同一性区域和低同一性区域之间的差异证明了 UniKP 在提取更深层次的互连信息方面的能力,从而在这些任务中表现出更高的预测准确性。

两层框架 EF-UniKP

当前的大部分模型没有考虑环境因素,这是模拟真实实验条件的一个关键限制。为了解决这个问题,研究人员提出了一个两层框架 EF-UniKP,它考虑了环境因素。基于分别具有 pH 和温度信息的两个新构建的数据集,EF-UniKP 与初始 UniKP 相比显示出改进的性能。这是一个准确、高通量、独立于生物体且依赖于环境的 kcat 预测。此外,这种方法有可能扩展到包括其他因素,例如共底物和 NaCl 浓度。

降低预测误差,中国科学院团队开发用于预测酶动力学参数的统一框架

图示:考虑环境因素的两层框架。(来源:论文)

然而,由于缺乏综合数据,现有模型并未考虑这些因素之间的相互作用。随着实验技术的进步,包括生物铸造实验室自动化和持续进化方法,研究人员预计酶动力学数据将激增。这种涌入不仅丰富了该领域,而且提高了预测模型的准确性。

由于 kcat 数据集的高度不平衡,导致高 kcat 值预测存在较高误差,该团队系统地探索了四种有代表性的重新加权方法来缓解这一问题。结果表明,每种方法的超参数设置对于改进高 kcat 值预测至关重要。

该团队证实了当前框架在米氏常数(Km)预测和 kcat / Km 预测方面的强通用性。UniKP 在预测 Km 值方面实现了最先进的性能,更令人印象深刻的是,在预测 kcat / Km 值方面优于当前最先进模型的综合结果。此外,研究人员基于实验测量的 kcat / Km 值以及使用 kcat / Km 数据集上的 kcat 和 Km 预测模型计算的 kcat / Km 值验证了 UniKP 框架。

值得注意的是,从 UniKP kcat / UniKP Km 得出的值与实验 kcat / Km 之间观察到的相关性相对较低(PCC = −0.01)。这种差异可能是由于构建各自模型时使用的不同数据集造成的,因此需要开发一个不同的模型来预测 kcat / Km 值。将来,随着包含 kcat 和 Km 值的统一数据集的出现,预计 kcat 和 Km 模型的计算输出将与 kcat / Km 专用模型生成的输出紧密一致。

在酶的挖掘和进化中具体应用

UniKP 在酪氨酸氨裂解酶 (TAL) 酶挖掘和定向进化中的应用,证明了其彻底改变合成生物学和生物化学研究的潜力。这项研究表明,UniKP 有效识别了高活性 TAL,并迅速提高了现有 TAL 的催化效率,RgTAL-489T 的 kcat / Km 值比野生型酶高出 3.5 倍。

此外,在考虑环境因素时,衍生框架 EF-UniKP 始终能够以极高的精度识别高活性 TAL 酶,来自 Tephrocybe rancida 的 TrTAL 的 kcat / Km 值比野生型酶高 2.6 倍。结果显示,5条序列的 kcat 和 kcat / Km 值均超过野生型酶。

通过加速酶的发现和优化过程,UniKP 有望成为推进生物催化、药物发现、代谢工程和其他依赖酶催化过程的领域的强大工具。

局限与展望

然而,当前版本的 UniKP 仍然存在一些限制。例如,虽然 UniKP 能够区分实验测量的酶及其变体的 kcat 值,但预测的 kcat 值不够准确。这可能是由于与已知蛋白质序列和底物结构的数量相比数据集不足。

虽然重新加权方法可以在一定程度上缓解由不平衡的 kcat 数据集引起的预测偏差(约 6.5% 的改进),但通过合成少数过采样技术和其他样本合成方法可以实现更显著的改进。

合成生物学的一个中心目标是开发数字细胞,它将彻底改变科学家研究生物学的方法。这项研究的一个关键先决条件是仔细确定途径内所有酶的酶参数。人工智能辅助的工具阐明了这一挑战,提供了一种预测酶动力学的高通量方法。

虽然与早期模型相比,UniKP 预测因子的误差减少了,但不准确仍然是构建精确代谢模型的重大障碍。纳入越来越多的实验确定的 kcat 和 Km 值可以提高模型的准确性。

接下来,研究人员打算结合最先进的算法,例如迁移学习、强化学习和其他小样本学习算法来有效处理不平衡数据集。并且,该团队的目标是探索更多应用,包括酶进化和生物体的全局分析。

论文链接:https://www.nature.com/articles/s41467-023-44113-1

相关专题

更多
mysql标识符无效错误怎么解决
mysql标识符无效错误怎么解决

mysql标识符无效错误的解决办法:1、检查标识符是否被其他表或数据库使用;2、检查标识符是否包含特殊字符;3、使用引号包裹标识符;4、使用反引号包裹标识符;5、检查MySQL的配置文件等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

179

2023.12.04

Python标识符有哪些
Python标识符有哪些

Python标识符有变量标识符、函数标识符、类标识符、模块标识符、下划线开头的标识符、双下划线开头、双下划线结尾的标识符、整型标识符、浮点型标识符等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

276

2024.02.23

java标识符合集
java标识符合集

本专题整合了java标识符相关内容,想了解更多详细内容,请阅读下面的文章。

252

2025.06.11

c++标识符介绍
c++标识符介绍

本专题整合了c++标识符相关内容,阅读专题下面的文章了解更多详细内容。

121

2025.08.07

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

395

2023.08.14

数据库三范式
数据库三范式

数据库三范式是一种设计规范,用于规范化关系型数据库中的数据结构,它通过消除冗余数据、提高数据库性能和数据一致性,提供了一种有效的数据库设计方法。本专题提供数据库三范式相关的文章、下载和课程。

340

2023.06.29

如何删除数据库
如何删除数据库

删除数据库是指在MySQL中完全移除一个数据库及其所包含的所有数据和结构,作用包括:1、释放存储空间;2、确保数据的安全性;3、提高数据库的整体性能,加速查询和操作的执行速度。尽管删除数据库具有一些好处,但在执行任何删除操作之前,务必谨慎操作,并备份重要的数据。删除数据库将永久性地删除所有相关数据和结构,无法回滚。

2072

2023.08.14

vb怎么连接数据库
vb怎么连接数据库

在VB中,连接数据库通常使用ADO(ActiveX 数据对象)或 DAO(Data Access Objects)这两个技术来实现:1、引入ADO库;2、创建ADO连接对象;3、配置连接字符串;4、打开连接;5、执行SQL语句;6、处理查询结果;7、关闭连接即可。

346

2023.08.31

c++主流开发框架汇总
c++主流开发框架汇总

本专题整合了c++开发框架推荐,阅读专题下面的文章了解更多详细内容。

3

2026.01.09

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 2.5万人学习

Django 教程
Django 教程

共28课时 | 2.9万人学习

MySQL 教程
MySQL 教程

共48课时 | 1.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号