陶哲轩:通义千问QwQ奥数真厉害,开源大模型顶流

碧海醫心
发布: 2024-11-30 19:21:10
原创
1242人浏览过

阿里云通义千问团队最新发布的开源ai推理模型qwq-32b,在ai数学奥林匹克竞赛aimo中表现惊艳,展现出强大的数学和编程能力,甚至在部分测试中超越了openai的o1模型。

QwQ,全称Qwen with Questions,是一个实验性研究模型,其核心在于赋予模型更充分的思考、质疑和反思时间,从而提升其对复杂问题的理解和解决能力。 在不到一天前,就有参赛团队使用QwQ-32B在AIMO竞赛中取得了18/20的高分,有望率先获得“Early Sharing Prize”奖金。

菲尔茨奖得主陶哲轩教授在本周五介绍了AIMO竞赛的最新进展,并指出QwQ在解决数学竞赛问题方面表现优异。 第二届AIMO竞赛奖金池已达211.7万美元,参赛团队需公开代码、方法、数据和模型参数。本届竞赛中,QwQ系列模型占据主导地位。

QwQ的强大推理能力也体现在其他方面,社交媒体上许多用户对其推理过程赞赏有加。 HuggingFace团队也对其测试结果表示惊叹。 有趣的是,QwQ的思考过程似乎以中文为基础,这或许是其逻辑能力强大的原因之一。

在多个权威评测集上,QwQ均取得了优异成绩:GPQA评测集(科学推理)准确率达65.2%(研究生水平);AIME评测集(综合数学)胜率50%;MATH-500评测集(数学解题)得分90.6%,超越o1-preview和o1-mini;LiveCodeBench评测集(代码生成)答对一半题目。 QwQ甚至能够在“猜牌”等经典智力题中,通过自我对话和反思,最终得出正确答案。

通义万相
通义万相

通义万相,一个不断进化的AI艺术创作大模型

通义万相 596
查看详情 通义万相

尽管QwQ展现出强大的潜力,但阿里云团队也强调其仍处于实验阶段,存在一些局限性,例如语言混合使用、潜在偏见等,未来将通过持续研究和迭代改进。

QwQ的出现,标志着开源大模型领域新一轮的竞争格局正在形成。

以上就是陶哲轩:通义千问QwQ奥数真厉害,开源大模型顶流的详细内容,更多请关注php中文网其它相关文章!

相关标签:
最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
热门推荐
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号