0

0

深度学习在几何推理上获得天才级表现,Nature发表了DeepMind的模型,并于菲尔兹奖得主新闻中获得赞誉

WBOY

WBOY

发布时间:2024-01-18 12:45:30

|

655人浏览过

|

来源于机器之心

转载

这项工作代表了 AI 在数学推理上的能力突破,是开发通用 AI 系统方面的重要里程碑。

这一次,人工智能算法在数学奥林匹克竞赛(imo)上取得了重大成绩突破。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

奥数能力金牌级:DeepMind几何推理模型登上Nature,代码开源,菲尔兹奖得主点赞

在最新一期的国际权威期刊《自然》杂志上,发表了一篇论文介绍了名为AlphaGeometry的人工智能系统。该系统能够解决奥林匹克几何问题,而无需人类的示范。专家认为,这是人工智能朝着具备人类推理能力的方向迈进的重要里程碑。这项研究成果的发表对于推动人工智能的进一步发展具有重要意义。

奥数能力金牌级:DeepMind几何推理模型登上Nature,代码开源,菲尔兹奖得主点赞

论文链接:https://www.nature.com/articles/s41586-023-06747-5

DeepMind 也在论文发表的第一时间将代码和模型开源,GitHub:https://github.com/google-deepmind/alphageometry

这是一种人工智能系统,来自 Google DeepMind 研究者之手,它能够以接近人类奥赛金牌得主的水平解决复杂的几何问题。

在对30道奥数几何题的基准测试中,AlphaGeometry在标准奥数时限内解决了25道题,而之前最先进的系统只解决了其中10道几何问题。与此相比,人类金牌得主的平均解决问题数量为25.9个。

奥数能力金牌级:DeepMind几何推理模型登上Nature,代码开源,菲尔兹奖得主点赞

对于基于学习的AI模型来说,定理证明是一项具有挑战性的任务。主要原因在于,大多数数学领域中的人类证明很难被翻译成机器可验证的语言,从而限制了用于训练AI模型的数据量。为了克服这一问题,DeepMind提出了一种替代方法,即使用合成数据进行定理证明。他们开发了一个通用的指导框架,称为AlphaGeometry,该框架在许多领域都具有适用性。通过利用合成数据,AlphaGeometry能够训练AI模型进行定理证明,并产生高质量的结果。这一方法为解决定理证明的困难提供了一种有效的解决方案。

研究介绍

AlphaGeometry 将语言模型与「符号引擎」相结合,借助符号和逻辑规则进行数学推论。在这其中,语言模型擅长识别、预测流程的后续步骤,但缺乏数学推理所需的严谨性;另一方面,符号引擎纯粹基于形式逻辑和严格的规则,这使得它能够引导语言模型走向理性决策。

在 AlphaGeometry 的研究上,DeepMind 从跨越 2000 年到 2022 年之间的 30 个奥林匹克几何问题(IMO-AG-30)的基准测试集中进行了测试,结果表明,AlphaGeometry 在比赛时间限制下能够解决 25 个问题。而之前最先进的方法(Wu’s method)只能解决 10 个。

众所周知,由于缺乏推理技能和训练数据,AI 系统经常难以解决几何和数学方面的复杂问题。AlphaGeometry 系统将神经语言模型的预测能力与规则约束推理引擎相结合,两者协同工作以找到了新的解决方案。

此外,为了解决数据难题,该研究生成了大量的合成训练数据,即 1 亿个示例,其中许多定理的证明步骤超过 200 步,比数学奥林匹克竞赛定理的平均证明长度长 4 倍。

AlphaGeometry 展示了 AI 不断增长的逻辑推理能力以及发现和验证新知识的能力。解决奥林匹克级别的几何问题是 AI 在迈向更先进和通用人工智能系统道路上的一个重要里程碑。 

菲尔兹奖得主、IMO 金牌获得者 Ngô Bảo Châu(吴宝珠)表示:「现在我完全明白了,为什么 AI 研究者们会首先尝试解决国际数学奥林匹克 (IMO) 的几何题目,因为找到它们的解决方案有点像下棋,我们在每一步都有相对较少的合理走法。但我仍然对他们能够实现这一点感到震惊。这是一项令人印象深刻的成就。」

奥数能力金牌级:DeepMind几何推理模型登上Nature,代码开源,菲尔兹奖得主点赞

吴宝珠,2010 年菲尔兹奖得主,现任芝加哥大学教授。

AlphaGeometry 是一个神经符号系统,由神经语言模型和符号推演引擎组成,它们共同寻找复杂几何定理的证明。一个系统提供快速、直观的想法,而另一种则提供更加深思熟虑、理性的决策。

由于语言模型擅长识别数据中的一般模式和关系,因此它们可以快速预测潜在有用的结构,但通常缺乏严格推理或做出解释。另一方面,符号推演引擎基于形式逻辑并使用明确的规则来得出结论,两者相互配合,共同构成了 AlphaGeometry。

AlphaGeometry 的语言模型引导其符号推演引擎寻找几何问题的可能解决方案。一般的奥林匹克几何问题基于图表,需要添加新的几何结构才能解决,例如点、线或圆。AlphaGeometry 的语言模型可以从无数种可能性中预测添加哪些新结构最有用。这些线索有助于填补空白,并允许符号引擎对图表进行进一步推论并接近解决方案。

举例来说,下图(上)为 AlphaGeometry 解答简单题的过程,题目为「设 ABC 为 AB = AC 的任意三角形。证明∠ABC = ∠BCA。」

AlphaGeometry 证明过程是这样的:AlphaGeometry 通过运行符号推演引擎(symbolic deduction  engine)启动证明搜索。这个引擎会从定理的前提出发,详尽地推导出新的陈述,直到定理得到证明或者新的陈述被耗尽。假如符号引擎未能找到证明,语言模型会构造一个辅助点,在符号引擎重新开始之前增加可证明的条件。这个循环一直持续到找到解决方案为止。对于简单的例子,循环在第一个辅助结构「 BC 的中点添加 D 点」之后终止。

Runway Green Screen
Runway Green Screen

Runway 平台的AI视频工具,绿幕抠除、视频生成、动态捕捉等

下载

下图(下)为 AlphaGeometry 解决 IMO 的解题思路。「证明三角形 FKM 和 KQH 的外接圆 (O1) 和 (O2) 彼此相切……」,这么复杂的问题,AlphaGeometry 同样也能证明,证明过程还给出了辅助点等。出于说明目的,证明过程被大大缩短和编辑。

奥数能力金牌级:DeepMind几何推理模型登上Nature,代码开源,菲尔兹奖得主点赞

生成 1 亿数学推理训练数据

人类可以在纸上进行勾画来学习几何、检查图表并使用现有知识来发现新的、更复杂的几何属性和关系。该研究生成合成数据的方法大规模模拟了这种知识构建过程。其中生成合成数据的方法如图 3 所示。

奥数能力金牌级:DeepMind几何推理模型登上Nature,代码开源,菲尔兹奖得主点赞

使用高度并行计算,系统首先生成 5 亿个几何对象的随机图,并详尽地导出每个图中点和线之间的所有关系。AlphaGeometry 找到每个图中包含的所有证明,然后逆向推导,找出需要哪些额外的结构(如果有的话)来获得这些证明。这一过程为「符号推演与回溯」。

奥数能力金牌级:DeepMind几何推理模型登上Nature,代码开源,菲尔兹奖得主点赞

由 AlphaGeometry 生成的合成数据的可视化表示

之后,这个巨大的数据池被过滤以排除类似的示例,从而产生了 1 亿个训练数据集。

开创性的人工智能推理能力

AlphaGeometry 提供的每一道奥数题的解法都经过计算机检查和验证。研究人员还将其结果与之前的人工智能方法以及人类在奥林匹克竞赛中的表现进行了比较。此外,数学教练、前奥赛金牌得主 Evan Chen(陈谊廷)为我们评估了 AlphaGeometry 的一系列解决方案。

奥数能力金牌级:DeepMind几何推理模型登上Nature,代码开源,菲尔兹奖得主点赞

陈谊廷,MIT 数学在读博士,曾获得 IMO 2014 年金牌。

Evan Chen 表示:「AlphaGeometry 的输出令人印象深刻,因为它既可验证又干净。过去针对基于证明的竞争问题的人工智能解决方案有时是碰巧的(输出有时是正确的,需要人工检查),而 AlphaGeometry 没有这个弱点:它的解决方案具有机器可验证的结构。另一方面,它的输出仍然是人类可读的。人们可以想象一个通过强力坐标系解决几何问题的计算机程序:想想一页又一页繁琐的代数计算,AlphaGeometry 不是这样做的,它像人类学生一样使用带有角度和相似三角形的经典几何规则。」

最近一段时间,金融科技公司 XTX Markets 设立了人工智能奥林匹克数学奖(AI-MO Prize),旨在鼓励能够进行数学推理的人工智能模型的开发。由于每个奥林匹克竞赛都有六个问题,其中只有两个通常集中在几何上,因此 AlphaGeometry 只能应用于给定奥林匹克竞赛中的三分之一问题。

尽管如此,AlphaGeometry 仅靠自己的几何解题能力就成为了世界上第一个能够在 2000 年和 2015 年通过 IMO 铜牌门槛的人工智能模型。

DeepMind 已在着手推进下一代人工智能系统的推理。研究人员认为,鉴于利用大规模合成数据从头开始训练人工智能系统的广泛潜力,这种方法可能会影响未来人工智能系统发现数学及其他领域新知识的方向。

AlphaGeometry 开创了人工智能数学推理的先河 —— 从探索纯数学之美到使用语言模型解决数学和科学问题。人们希望这种技术能够继续提升,进而解决更高级、抽象的数学问题。

而在数学之外,AlphaGeometry 的影响或许还可以覆盖到包含几何问题的更多领域,如计算机视觉、建筑,甚至理论物理学等。

参考内容:

https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/

相关专题

更多
页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

402

2023.08.14

人工智能在生活中的应用
人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容,供大家免费下载体验。

411

2023.08.17

人工智能的基本概念是什么
人工智能的基本概念是什么

人工智能的英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

301

2024.01.09

人工智能不能取代人类的原因是什么
人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

628

2024.09.10

Python 人工智能
Python 人工智能

本专题聚焦 Python 在人工智能与机器学习领域的核心应用,系统讲解数据预处理、特征工程、监督与无监督学习、模型训练与评估、超参数调优等关键知识。通过实战案例(如房价预测、图像分类、文本情感分析),帮助学习者全面掌握 Python 机器学习模型的构建与实战能力。

33

2025.10.21

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1976

2024.08.16

C++ 单元测试与代码质量保障
C++ 单元测试与代码质量保障

本专题系统讲解 C++ 在单元测试与代码质量保障方面的实战方法,包括测试驱动开发理念、Google Test/Google Mock 的使用、测试用例设计、边界条件验证、持续集成中的自动化测试流程,以及常见代码质量问题的发现与修复。通过工程化示例,帮助开发者建立 可测试、可维护、高质量的 C++ 项目体系。

6

2026.01.16

java数据库连接教程大全
java数据库连接教程大全

本专题整合了java数据库连接相关教程,阅读专题下面的文章了解更多详细内容。

28

2026.01.15

Java音频处理教程汇总
Java音频处理教程汇总

本专题整合了java音频处理教程大全,阅读专题下面的文章了解更多详细内容。

12

2026.01.15

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号