“9.11和9.9,究竟谁更大?”——这道看似简单的小学数学题,却曾难倒了一众海内外的ai大模型,成为了检验大模型常识与逻辑推理能力的一块“试金石”。
今日,记者在测试阿里巴巴最新公测的“千问”APP时,意外发现,此前曾答对该问题的千问,这次竟也“翻车”了。
先答错,再自我纠错
当记者提问:“数字9.9和9.11谁大?”时,千问APP给出的第一反应竟是:“9.11更大”。
然而,有趣的是,在随后的详细解析中,千问又通过正确的逻辑拆解,得出了“9.9大于9.11”的结论。

面对记者关于“结论与过程矛盾”的追问,千问坦诚地承认了自己的错误。它解释称,这是由于“9.11”的三位数形式引发了潜意识的数字长度错觉,导致其在处理问题时出现了阶段性的认知偏差和笔误。
随后,当记者再次提问同一问题时,千问已迅速完成了“自我纠错”,给出了正确的答案。
AI大模型的“通病”:擅长统计,弱于规则
事实上,在“9.11和9.9谁大”这个问题上“翻车”的,远不止千问一家。
此前,包括ChatGPT-4o、谷歌Gemini等在内的全球顶级大模型,都曾在此题上折戟。技术专家指出,大模型本质上是基于统计相关性的语言模型,这使得它们在处理需要严格规则推理的常识性问题时,往往会显得“力不从心”。
阿里千问:借力Qwen模型,进军全球AI to C市场
尽管在常识性问题上偶尔会出现失误,但中国大模型在全球范围内的竞争力已不容小觑。截至目前,阿里巴巴的Qwen系列模型,全球下载量已突破6亿次。
今日,阿里巴巴正式宣布了“千问”项目,并计划将其打造为集地图、外卖、办公、购物等各类生活场景于一体的超级AI应用。这也标志着,阿里巴巴正借力Qwen模型的海外影响力,正式向ChatGPT发起了“AI时代的未来之战”。










