通义实验室新研究：大模型自己「扮演」搜索引擎，提升推理能力无需搜索 API-硬件测评-PHP中文网

通义实验室新研究：大模型自己「扮演」搜索引擎，提升推理能力无需搜索 API

心靈之曲

发布： 2025-05-19 15:26:01

原创

995人浏览过

强化学习（rl）结合真实搜索引擎可以显著提升大模型的检索和推理能力。然而，这一方法面临两大挑战：搜索引擎返回的文档质量不稳定，导致训练过程中的噪音和不稳定性；rl 训练需要频繁部署，产生大量 api 开销，限制了可扩展性。

针对这些问题，阿里通义实验室推出了开源解决方案 ZeroSearch，这是一个无需与真实搜索引擎交互的强化学习框架。实验表明，ZeroSearch 只需使用 3B 参数的 LLM 作为检索模块，就能有效提升搜索能力，并大幅节省 API 成本。

通义实验室新研究：大模型自己「扮演」搜索引擎，提升推理能力无需搜索 API

ZeroSearch 让 LLM 实现自给自足的搜索进化

研究团队通过模拟搜索环境和渐进式抗噪训练，使 LLM 不再依赖昂贵的搜索引擎 API。

通义实验室新研究：大模型自己「扮演」搜索引擎，提升推理能力无需搜索 API

轻量微调：将 LLM 转变为“搜索引擎模拟器”

使用少量标注数据对 LLM 进行微调，使其能够根据指令生成两种类型的文档——有用结果和噪声干扰。

通义实验室新研究：大模型自己「扮演」搜索引擎，提升推理能力无需搜索 API

通过收集与真实搜索引擎交互的数据，ZeroSearch 对 LLM 进行轻量级监督微调。在此过程中，模型学会生成与真实搜索引擎风格相似的文档，并能根据提示词生成相关或噪声文档。这种能力使模型在训练过程中能够动态调整文档质量，从而更好地模拟真实检索场景。

课程化抗噪训练：像打游戏升级一样训练模型

训练初期返回高质量文档，后期逐渐混入噪声（噪声比例按指数曲线上升）。ZeroSearch 引入了课程式学习机制，逐步降低生成文档的质量，使模型从简单的检索场景逐步过渡到更具挑战性的任务。这种策略不仅提升了模型的推理能力，还显著增强了训练的稳定性和效果。

通义实验室新研究：大模型自己「扮演」搜索引擎，提升推理能力无需搜索 API

随着训练的进行，模型逐渐适应更复杂的检索任务，最终能够在高质量和低质量文档中找到平衡。

强化学习闭环：自产自销的搜索生态

ZeroSearch 通过模拟搜索引擎，完全消除了与真实搜索引擎交互的 API 费用，使得大规模强化学习训练变得更加经济可行。此外，ZeroSearch 兼容多种强化学习算法，包括 PPO（近端策略优化）和 GRPO（群体相对策略优化）。这些算法为模型提供了不同的优化策略，使得 ZeroSearch 能够在不同的模型和任务中表现出色。实验表明，GRPO 在训练稳定性方面表现更好，而 PPO 则在某些任务中提供了更高的灵活性。

实验结果及结论

ZeroSearch 的零 API 成本优势不仅体现在经济上，还体现在训练的灵活性和可扩展性上。

ZeroSearch vs. 现有方法

通义实验室新研究：大模型自己「扮演」搜索引擎，提升推理能力无需搜索 API

在图中，我们可以清晰地看到 ZeroSearch 在多个问答数据集上的表现。无论是单跳（Single-Hop）还是多跳（Multi-Hop）问答任务，ZeroSearch 都显著优于现有的基线方法，包括直接提示、RAG 和 Search-R1 等。这表明 ZeroSearch 不仅在简单任务中表现出色，还能在复杂的多跳问答任务中发挥强大的检索能力。

纳米搜索

纳米搜索：360推出的新一代AI搜索引擎

查看详情

通义实验室新研究：大模型自己「扮演」搜索引擎，提升推理能力无需搜索 API

上图展示了 ZeroSearch 和 Search-R1（使用真实搜索引擎）在 LLaMA-3.2-3B 模型上的奖励曲线对比。ZeroSearch 的学习曲线更加平滑且最终性能优于 Search-R1，表明其在训练过程中的稳定性和优越性。

不同模型规模的性能

通义实验室新研究：大模型自己「扮演」搜索引擎，提升推理能力无需搜索 API

可以看到使用7B 参数的检索模块就能达到与谷歌搜索相当的性能，而14B 参数的检索模块甚至能够超越谷歌搜索。这表明 ZeroSearch 不仅适用于小型模型，还能在大型模型中发挥更大的潜力，为 LLM 的检索能力提升提供了广阔的空间。

强化学习算法的兼容性

通义实验室新研究：大模型自己「扮演」搜索引擎，提升推理能力无需搜索 API

比较了在 Qwen-2.5-3B 和 LLaMA-3.2-3B 模型上，使用 PPO 和 GRPO 算法的 ZeroSearch 性能，可以看到 ZeroSearch 与 PPO 和 GRPO 两种强化学习算法的兼容性。实验结果表明，GRPO 在训练稳定性方面表现更好，而 PPO 则在某些任务中提供了更高的灵活性。这表明 ZeroSearch 能够适应不同的强化学习算法，为研究人员提供了更多的选择。

通过模拟搜索引擎，ZeroSearch 完全消除了 API 成本，同时通过课程式学习策略逐步提升模型的推理能力。这一创新不仅解决了现有方法中的成本和稳定性问题，还为未来的智能化检索提供了新的思路。

论文链接：

https://www.php.cn/link/df406179fe73acb98a8f45606449d731

参考链接：

https://www.php.cn/link/b6b53a1b9cde5ef3c37aea1ff7b16477

— 完 —

量子位 AI 主题策划正在征集中！欢迎参与专题365 行 AI 落地方案，一千零一个 AI 应用，或与我们分享你在寻找的 AI 产品，或发现的AI 新动向。

也欢迎你加入量子位每日 AI 交流群，一起来畅聊 AI 吧～

一键关注点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！