伦敦instadeep的研究人员开发了一种名为nucleotide transformer (nt) 的强大基础模型,用于预测dna序列的分子表型。该模型在包含3202个人类基因组和850个不同物种基因组的大规模数据集上进行了预训练,参数规模从5000万到25亿不等。 nt利用transformer架构,能够生成特定上下文的核苷酸序列表示,即使在数据有限的情况下也能实现准确预测。
这项发表在《Nature Methods》的研究,比较了不同参数规模的NT模型在18个基因组学预测任务上的表现,并将其与其他先进模型进行了对比。结果表明,NT模型在各种任务中都表现出色,尤其是在低数据环境下。
研究人员还发现,NT模型能够通过高效的微调方法快速适应不同的基因组学应用,即使是最大型的模型,也只需少量参数即可在单GPU上完成微调。
更重要的是,研究表明,在不同物种的基因组上进行预训练,能够提升模型在人类基因组预测任务中的泛化能力。这突显了跨物种数据在构建更强大基因组学模型中的重要性。
总之,Nucleotide Transformer 为从DNA序列预测分子表型提供了一种高效且准确的方法,为基因组学研究开辟了新的可能性。 研究人员也指出,未来研究可以探索更有效的跨物种数据利用方法,以进一步提升模型性能。
以上就是仅总参数量0.1%、单GPU 15分钟完成微调,人类基因组基础模型NT登Nature子刊的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号