“9.11和9.9,究竟谁更大?”——这道看似简单的小学数学题,却曾难倒了一众海内外的ai大模型,成为了检验大模型常识与逻辑推理能力的一块“试金石”。
今日,记者在测试阿里巴巴最新公测的“千问”APP时,意外发现,此前曾答对该问题的千问,这次竟也“翻车”了。
当记者提问:“数字9.9和9.11谁大?”时,千问APP给出的第一反应竟是:“9.11更大”。
然而,有趣的是,在随后的详细解析中,千问又通过正确的逻辑拆解,得出了“9.9大于9.11”的结论。

面对记者关于“结论与过程矛盾”的追问,千问坦诚地承认了自己的错误。它解释称,这是由于“9.11”的三位数形式引发了潜意识的数字长度错觉,导致其在处理问题时出现了阶段性的认知偏差和笔误。
随后,当记者再次提问同一问题时,千问已迅速完成了“自我纠错”,给出了正确的答案。
事实上,在“9.11和9.9谁大”这个问题上“翻车”的,远不止千问一家。
此前,包括ChatGPT-4o、谷歌Gemini等在内的全球顶级大模型,都曾在此题上折戟。技术专家指出,大模型本质上是基于统计相关性的语言模型,这使得它们在处理需要严格规则推理的常识性问题时,往往会显得“力不从心”。
尽管在常识性问题上偶尔会出现失误,但中国大模型在全球范围内的竞争力已不容小觑。截至目前,阿里巴巴的Qwen系列模型,全球下载量已突破6亿次。
今日,阿里巴巴正式宣布了“千问”项目,并计划将其打造为集地图、外卖、办公、购物等各类生活场景于一体的超级AI应用。这也标志着,阿里巴巴正借力Qwen模型的海外影响力,正式向ChatGPT发起了“AI时代的未来之战”。
以上就是阿里千问APP公测:9.9和9.11谁大?AI先“翻车”后“纠错”的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号