DeepEyesV2— 小红书开源的多模态智能体模型-人工智能-PHP中文网

DeepEyesV2— 小红书开源的多模态智能体模型

DDD

发布： 2025-11-12 11:53:19

原创

934人浏览过

deepeyesv2 是小红书团队推出的多模态智能体模型，通过两阶段训练法实现强大的工具调用和多模态推理能力。模型能理解图文信息，支持主动调用代码执行、网络搜索等外部工具，将工具返回的结果融入推理过程，解决复杂的真实世界问题。模型第一阶段通过监督微调让模型建立工具使用的基本认知，第二阶段通过强化学习提升模型的工具调用效率和泛化能力。deepeyesv2 在新提出的 realx-bench 基准测试中表现出色，展现出强大的多技能协调能力。

百灵大模型

蚂蚁集团自研的多模态AI大模型系列

177

查看详情

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
DeepEyesV2的主要功能

多模态理解：模型能同时处理文本和图像信息，理解复杂的图文内容。
主动工具调用：在需要时主动调用外部工具，如代码执行环境和网络搜索，获取额外信息或执行复杂任务。
动态推理与决策：将工具调用的结果融入推理过程，通过迭代的方式逐步解决问题。
任务自适应：根据不同任务类型（如感知、推理等）智能选择合适的工具，提升效率和准确性。
复杂任务解决：通过工具的组合和迭代推理，解决需要多种能力协同的复杂任务，如结合感知、搜索和推理的综合任务。

DeepEyesV2的技术原理

冷启动阶段（Cold Start）：
- 监督微调（Supervised Fine-tuning, SFT）：通过大量包含工具使用步骤的样本数据（如感知型、推理型和长思维链数据）对模型进行微调，帮助模型建立对工具使用的基本认知。
- 数据设计：数据覆盖多种任务类型，确保模型在不同场景下都能学习到合适的工具调用策略。
强化学习阶段（Reinforcement Learning）：
- 策略优化：在冷启动的基础上，通过强化学习进一步优化模型的工具调用策略，提升效率和泛化能力。
- 目标：减少不必要的工具调用，同时在未见过的复杂场景中创造性地组合工具，提升模型的灵活性和适应性。