首页 > 新闻 > IT新闻 > 正文

阿里千问APP公测:9.9和9.11谁大?AI先“翻车”后“纠错”

P粉602998670
发布: 2025-11-18 17:27:43
原创
436人浏览过

“9.11和9.9,究竟谁更大?”——这道看似简单的小学数学题,却曾难倒了一众海内外的ai大模型成为了检验大模型常识与逻辑推理能力的一块“试金石”。

今日,记者在测试阿里巴巴最新公测的“千问”APP时,意外发现,此前曾答对该问题的千问,这次竟也“翻车”了。

先答错,再自我纠错

当记者提问:“数字9.9和9.11谁大?”时,千问APP给出的第一反应竟是:“9.11更大”。

然而,有趣的是,在随后的详细解析中,千问又通过正确的逻辑拆解,得出了“9.9大于9.11”的结论。

阿里千问APP公测:9.9和9.11谁大?AI先“翻车”后“纠错” - php中文网

面对记者关于“结论与过程矛盾”的追问,千问坦诚地承认了自己的错误。它解释称,这是由于“9.11”的三位数形式引发了潜意识的数字长度错觉,导致其在处理问题时出现了阶段性的认知偏差和笔误。

随后,当记者再次提问同一问题时,千问已迅速完成了“自我纠错”,给出了正确的答案。

知我AI·PC客户端
知我AI·PC客户端

离线运行 AI 大模型,构建你的私有个人知识库,对话式提取文件知识,保证个人文件数据安全

知我AI·PC客户端 35
查看详情 知我AI·PC客户端

AI大模型的“通病”:擅长统计,弱于规则

事实上,在“9.11和9.9谁大”这个问题上“翻车”的,远不止千问一家。

此前,包括ChatGPT-4o、谷歌Gemini等在内的全球顶级大模型,都曾在此题上折戟。技术专家指出,大模型本质上是基于统计相关性的语言模型,这使得它们在处理需要严格规则推理的常识性问题时,往往会显得“力不从心”。

阿里千问:借力Qwen模型,进军全球AI to C市场

尽管在常识性问题上偶尔会出现失误,但中国大模型在全球范围内的竞争力已不容小觑。截至目前,阿里巴巴的Qwen系列模型,全球下载量已突破6亿次。

今日,阿里巴巴正式宣布了“千问”项目,并计划将其打造为集地图、外卖、办公、购物等各类生活场景于一体的超级AI应用。这也标志着,阿里巴巴正借力Qwen模型的海外影响力,正式向ChatGPT发起了“AI时代的未来之战”。

以上就是阿里千问APP公测:9.9和9.11谁大?AI先“翻车”后“纠错”的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号