0

0

斯坦福开源学术研究神器STORM再进化,AI智能体像人一样进行圆桌讨论

碧海醫心

碧海醫心

发布时间:2024-10-28 17:30:01

|

958人浏览过

|

来源于机器之心

转载

不仅有主持人,还能得到不同AI专家的解答。

今年 4 月,斯坦福大学推出了一款利用大语言模型(llm)辅助编写类维基百科文章的神器。它就是开源的 storm,可以在三分钟左右将你输入的主题转换为长篇文章或者研究论文,并能够以 pdf 格式直接下载。

具体来讲,STORM 在 LLM 的协助下,通过检索、多角度提问和模拟专家对话等方式,在整理收集到的信息基础上生成写作大纲,并最终形成一份详细、深入和准确的内容报告。STORM 尤其擅长需要大量研究和引用的写作任务。更难得的是,用户可以直接在 STORM 的网站免费体验。

此后,STORM 不断推出新的功能和服务,在 GitHub 上的 Star 量已经超过了 12k。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

斯坦福开源学术研究神器STORM再进化,AI智能体像人一样进行圆桌讨论

GitHub 地址:https://github.com/stanford-oval/storm

就在最近,该团队又推出全新功能 ——Co-STORM。与 STORM 的区别在于,它引入了协作对话机制,并采用轮次管理策略,实现流畅的协作式 AI 学术研究。功能包括如下:

Co-STORM LLM 专家:这种类型的智能体会根据外部知识来源生成答案并能根据对话历史提出后续问题。

主持人(Moderator):该智能体会根据检索器发现但未在前几轮直接使用的信息生成发人深省的问题。当然,问题生成也可以基于事实。

人类用户:人类用户将主动观察对话以更深入地了解主题,或者通过注入对话来引导讨论焦点,积极参与对话。

Co-STORM 的界面是下面这样的。

斯坦福开源学术研究神器STORM再进化,AI智能体像人一样进行圆桌讨论

体验地址:https://storm.genie.stanford.edu/

我们让 Co-STORM 就战争与和平(war and peace)主题来生成一篇文章,大约需要三分钟。

斯坦福开源学术研究神器STORM再进化,AI智能体像人一样进行圆桌讨论

在生成文章之后,我们可以看到,主持人提出问题,并得到基本信息提供者、文学教授、纪录片导演等不同 AI 智能体的回复,然后开启新一轮次的提问。

斯坦福开源学术研究神器STORM再进化,AI智能体像人一样进行圆桌讨论

此外,Co-STORM 的相关论文已被 EMNLP 2024 主会议收录。

斯坦福开源学术研究神器STORM再进化,AI智能体像人一样进行圆桌讨论

论文地址:https://www.arxiv.org/pdf/2408.15232

运行原理概览

下图为 Co-STORM 框架。整体而言,Co-STORM 模拟用户、观点引导专家和主持人之间的协作对话。

跃问视频
跃问视频

阶跃星辰推出的AI视频生成工具

下载

运行原理如下所示:首先维护动态更新的思维导图(3.2),从而帮助用户跟踪和参与对话(3.3)。 

在 3.4,提示模拟专家根据对话历史来确定对话意图,并生成基于互联网的问题或答案。

在 3.5,提示模拟主持人利用未使用的信息和思维导图生成新问题,从而自动引导对话。

最后,思维导图可用来生成完整的引用报告以作为总结。

斯坦福开源学术研究神器STORM再进化,AI智能体像人一样进行圆桌讨论

评估结果

自动评估可以实现可扩展测试,并允许对用户行为进行一致的模拟。

研究者将 Co-STORM 与以下基线进行比较:(1)RAG Chatbot,该基线从搜索引擎检索信息并通过一问一答范式与用户交互;(2)STORM + QA,该基线使用 STORM 框架为给定主题生成报告以提供基本信息。

下表 3 展示了报告质量和对话中问答轮次质量的评估结果。问答轮次和最终报告是人类与 Co-STORM 交互时学习的主要来源。STORM + QA 在研究给定主题时考虑了多种观点,与 RAG Chatbot 相比,确实提高了报告质量所有四个评分维度的表现。

同样,Co-STORM 的表现优于 RAG Chatbot,特别是在深度和新颖性方面,它通过模拟具有多个智能体角色的协作对话,类似于圆桌讨论。就对话质量而言,Co-STORM 中的问答轮次在一致性和参与度方面明显优于两个基线。

斯坦福开源学术研究神器STORM再进化,AI智能体像人一样进行圆桌讨论

Co-STORM 的一个关键特性是 LM 智能体可以代表用户提问。如下图 3 所示,在检查提问轮次时,Co-STORM 多智能体设计的优势变得更加明显,只需要一位专家和一位主持人就可以极大地获益。

重要的是,CoSTORM 中的主持人角色会根据有关主题的未使用信息提出问题。这样的角色代表拥有更多已知未知(known unknowns)的人,有效地引导对话,帮助用户在未知未知(unknown unknowns)空间中发现更多信息。

斯坦福开源学术研究神器STORM再进化,AI智能体像人一样进行圆桌讨论

下表 4 为人工评分结果,图 4 为成对比较结果。可以得出结论,CoSTORM 可以帮助用户找到与其目标相关的更广泛、更深层次的信息。

斯坦福开源学术研究神器STORM再进化,AI智能体像人一样进行圆桌讨论

斯坦福开源学术研究神器STORM再进化,AI智能体像人一样进行圆桌讨论

更多技术细节和评估结果请参考原论文。

相关专题

更多
http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1976

2024.08.16

什么是搜索引擎
什么是搜索引擎

搜索引擎是一种互联网工具,用于帮助用户在网上查找信息。搜索引擎的目标是提供最准确、最有价值的搜索结果,使用户能够快速找到所需的信息。本专题为大家提供搜索引擎相关的各种文章、以及下载和课程。

363

2023.08.02

有哪些目录搜索引擎
有哪些目录搜索引擎

目录搜索引擎有Google、Bing、Yahoo、Baidu、DuckDuckGo等。想了解更多目录搜索引擎的相关内容,可以阅读本专题下面的文章。

2154

2023.11.06

搜索引擎营销的主要模式
搜索引擎营销的主要模式

搜索引擎营销的主要模式包括:1. 竞价排名(ppc);2. 搜索引擎优化(seo);3. 本地搜索营销;4. 购物广告;5. 视频广告;6. 展示广告;7. 社交媒体营销;8. 移动广告。想了解更多搜索引擎营销的相关内容,可以阅读本专题下面的文章。

431

2024.05.20

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

2

2026.01.16

全民K歌得高分教程大全
全民K歌得高分教程大全

本专题整合了全民K歌得高分技巧汇总,阅读专题下面的文章了解更多详细内容。

0

2026.01.16

C++ 单元测试与代码质量保障
C++ 单元测试与代码质量保障

本专题系统讲解 C++ 在单元测试与代码质量保障方面的实战方法,包括测试驱动开发理念、Google Test/Google Mock 的使用、测试用例设计、边界条件验证、持续集成中的自动化测试流程,以及常见代码质量问题的发现与修复。通过工程化示例,帮助开发者建立 可测试、可维护、高质量的 C++ 项目体系。

10

2026.01.16

java数据库连接教程大全
java数据库连接教程大全

本专题整合了java数据库连接相关教程,阅读专题下面的文章了解更多详细内容。

33

2026.01.15

Java音频处理教程汇总
Java音频处理教程汇总

本专题整合了java音频处理教程大全,阅读专题下面的文章了解更多详细内容。

15

2026.01.15

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 2.2万人学习

Node.js 教程
Node.js 教程

共57课时 | 8.7万人学习

CSS3 教程
CSS3 教程

共18课时 | 4.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号