0

0

大语言模型仍无法可靠区分信念与事实

花韻仙語

花韻仙語

发布时间:2025-11-07 20:15:14

|

963人浏览过

|

来源于php中文网

原创

大语言模型仍无法可靠区分信念与事实

近日,美国斯坦福大学的一项研究在《自然·机器智能》期刊上发表,指出当前大语言模型(LLM)在识别用户错误信念方面存在显著短板,难以稳定区分主观信念与客观事实。研究发现,当个人信念与真实情况相悖时,这些模型常常无法准确判断何为事实、何为误信。

该成果对LLM在医学、法律及科学决策等高风险领域的应用提出了警示。研究人员强调,在涉及主观认知与事实偏差的复杂情境中,必须谨慎对待模型输出,否则可能助长错误信息扩散,甚至支持基于误解的决策。

研究团队评估了包括DeepSeek和GPT-4o在内的24种大语言模型,在约13000个问题上的表现。结果显示,在判断事实性陈述真假时,较新型号(如2024年5月发布的GPT-4o及之后版本)平均准确率分别为91.1%和91.5%,而早期模型则为84.8%和71.5%。然而,当面对第一人称信念表达(例如“我相信……”)时,模型识别虚假信念的能力明显下降。相比识别真实信念,新模型识别虚假信念的概率低34.3%,旧模型则低达38.6%。

Pixelcut
Pixelcut

AI产品图片处理——背景移除替换、物体抹除和图片放大

下载

此外,研究发现,大语言模型更倾向于直接纠正用户的说法,而不是识别其背后是否存在错误信念。在处理第三人称信念(如“Mary相信……”)时,较新的模型准确性下降4.6%,而较老的模型下降幅度高达15.5%。

研究结论强调,要实现真正可靠的人机交互,大语言模型必须具备精细辨别事实与信念之间差异的能力,并能准确判断其真伪,唯有如此,才能有效回应用户需求并遏制虚假信息传播。(科技日报)

相关专题

更多
ip地址修改教程大全
ip地址修改教程大全

本专题整合了ip地址修改教程大全,阅读下面的文章自行寻找合适的解决教程。

33

2025.12.26

压缩文件加密教程汇总
压缩文件加密教程汇总

本专题整合了压缩文件加密教程,阅读专题下面的文章了解更多详细教程。

18

2025.12.26

wifi无ip分配
wifi无ip分配

本专题整合了wifi无ip分配相关教程,阅读专题下面的文章了解更多详细教程。

46

2025.12.26

漫蛙漫画入口网址
漫蛙漫画入口网址

本专题整合了漫蛙入口网址大全,阅读下面的文章领取更多入口。

91

2025.12.26

b站看视频入口合集
b站看视频入口合集

本专题整合了b站哔哩哔哩相关入口合集,阅读下面的文章查看更多入口。

283

2025.12.26

俄罗斯搜索引擎yandex入口汇总
俄罗斯搜索引擎yandex入口汇总

本专题整合了俄罗斯搜索引擎yandex相关入口合集,阅读下面的文章查看更多入口。

370

2025.12.26

虚拟号码教程汇总
虚拟号码教程汇总

本专题整合了虚拟号码接收验证码相关教程,阅读下面的文章了解更多详细操作。

35

2025.12.25

错误代码dns_probe_possible
错误代码dns_probe_possible

本专题整合了电脑无法打开网页显示错误代码dns_probe_possible解决方法,阅读专题下面的文章了解更多处理方案。

25

2025.12.25

网页undefined啥意思
网页undefined啥意思

本专题整合了undefined相关内容,阅读下面的文章了解更多详细内容。后续继续更新。

72

2025.12.25

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP自制框架
PHP自制框架

共8课时 | 0.6万人学习

HTML+CSS基础与实战
HTML+CSS基础与实战

共132课时 | 9.2万人学习

前端基础到实战(HTML5+CSS3+ES6+NPM)
前端基础到实战(HTML5+CSS3+ES6+NPM)

共162课时 | 18.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号