
近日,美国斯坦福大学的一项研究在《自然·机器智能》期刊上发表,指出当前大语言模型(LLM)在识别用户错误信念方面存在显著短板,难以稳定区分主观信念与客观事实。研究发现,当个人信念与真实情况相悖时,这些模型常常无法准确判断何为事实、何为误信。
该成果对LLM在医学、法律及科学决策等高风险领域的应用提出了警示。研究人员强调,在涉及主观认知与事实偏差的复杂情境中,必须谨慎对待模型输出,否则可能助长错误信息扩散,甚至支持基于误解的决策。
研究团队评估了包括DeepSeek和GPT-4o在内的24种大语言模型,在约13000个问题上的表现。结果显示,在判断事实性陈述真假时,较新型号(如2024年5月发布的GPT-4o及之后版本)平均准确率分别为91.1%和91.5%,而早期模型则为84.8%和71.5%。然而,当面对第一人称信念表达(例如“我相信……”)时,模型识别虚假信念的能力明显下降。相比识别真实信念,新模型识别虚假信念的概率低34.3%,旧模型则低达38.6%。
此外,研究发现,大语言模型更倾向于直接纠正用户的说法,而不是识别其背后是否存在错误信念。在处理第三人称信念(如“Mary相信……”)时,较新的模型准确性下降4.6%,而较老的模型下降幅度高达15.5%。
研究结论强调,要实现真正可靠的人机交互,大语言模型必须具备精细辨别事实与信念之间差异的能力,并能准确判断其真伪,唯有如此,才能有效回应用户需求并遏制虚假信息传播。(科技日报)
以上就是大语言模型仍无法可靠区分信念与事实的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号