openai提供了两种类型的模型:推理模型(如o1和o3-mini)和gpt模型(如gpt-4o)。
DeepSeek-R1(国内使用)在后训练阶段大规模应用了强化学习技术,即使在标注数据极少的情况下,也显著提升了模型的推理能力。在数学、代码和自然语言推理等任务上,其性能与OpenAI的o1正式版不相上下。【选择o系列模型时,不妨考虑DeepSeek-R1,它性价比更高】
本指南涵盖了:
推理型与非推理型模型的区别何时应使用推理模型如何有效触发推理模型作为推理模型的最佳实践指南,本文同样适用于DeepSeek-R1,具体使用需根据实际情况决定。
一、推理模型 vs. GPT模型
OpenAI的o系列模型(“规划者”)【推理模型】,能够更深入地思考复杂任务,擅长制定战略、规划解决复杂问题的方案,并基于大量模糊信息做出决策。这些模型在高精度和高准确性执行任务方面表现出色,适用于通常需要人类专家的领域,如数学、科学、工程、金融服务和法律服务。
GPT模型(“工作主力”)【非推理模型】专为执行简单直接的任务而设计。一个应用可能使用o系列模型来规划解决问题的策略,然后使用GPT模型来执行具体任务,特别是在速度和成本比完美准确性更重要的情况下。
如何选择这两种模型?
思考:什么对你的使用场景最重要?
速度和成本 → GPT模型运行速度更快且成本更低【非推理模型】执行明确定义的任务 → GPT模型擅长处理明确定义的任务【非推理模型】准确性和可靠性 → o系列模型是可靠的决策者【推理模型】复杂问题解决 → o系列模型处理模糊性和复杂性【推理模型】大多数智能体工作流将结合使用这两种模型——推理模型用于能动性规划和决策,非推理模型用于任务执行。
GPT模型与o系列模型搭配使用示例:两种模型处理订单详情并结合客户信息,识别订单问题和退货政策,然后将所有这些数据点输入到推理模型中,根据政策做出退货可行性的最终决定。
二、何时使用推理模型
来自客户和OpenAI内部的成功使用模式。
1. 处理模糊任务
推理模型特别擅长处理有限信息或分散的信息片段,通过简单的提示,理解用户的意图并处理指令中的空白。实际上,推理模型在进行未经训练的猜测或尝试填补信息空白之前,通常会提出澄清性问题。
推理模型的推理能力使多智能体平台Matrix在处理复杂文档时能够生成详尽、格式良好且详细的响应。
---
o1使Matrix能够通过一个基本提示轻松识别信用协议下受限支付能力范围内的可用篮子。之前的模型无法达到如此性能。与其他模型相比,o1在处理密集型信用协议的52%复杂提示时表现更优。
----Hebbia,法律与金融领域的人工智能知识平台公司
2. 大海捞针
在处理大量非结构化信息时,推理模型在理解并提取仅与回答问题相关的最相关信息方面表现出色。
为了分析一家公司的收购,o1审查了数十份公司文件——如合同和租赁协议——以寻找可能影响交易的棘手条件。该模型的任务是标记关键条款,而在执行过程中,它在脚注中识别到了一个关键的“变更控制权”条款:如果该公司被出售,它必须立即偿还一笔7500万美元的贷款。o1对细节的极度关注使AI代理能够支持财务专业人士,识别出攸关任务的关键信息。
— Endex,人工智能金融情报平台
3. 在大型数据集中发现关系和细微差别
我们发现,推理模型在处理包含数百页密集、非结构化信息的复杂文档方面尤为出色,例如法律合同、财务报表和保险索赔。这些模型特别擅长在文档间寻找关联,并基于数据中隐含的事实做出决策。
---
税务研究需要综合多个文档以生成有说服力的最终答案。我们用o1替换了GPT-4o,发现o1在推理文档之间的相互作用以得出逻辑结论方面表现得更好,而这些结论在任何单一文档中并不明显。因此,通过切换到o1,我们在端到端性能上实现了4倍的提升——令人难以置信。
— Blue J,人工智能平台,用于税务研究
推理模型也擅长处理复杂的政策和规则,并将其应用到当前任务中,以得出合理结论。
财务分析中,分析师经常处理涉及股东权益的复杂情况,并需要理解相关的法律细节。
用一个具有挑战性但常见的问题测试了约10个来自不同供应商的模型:fundraising如何影响现有股东,尤其是在他们行使反稀释权利时?这需要通过pre-和post-money估值进行推理,并处理循环稀释回路——这是顶级财务分析师通常需要花费20-30分钟才能解决的问题。我们发现o1和o3-mini可以完美完成!这些模型甚至生成了一个清晰的计算表,展示了对$100k股东的影响。
– 蓝焰AI,人工智能投资管理平台
4. 多步骤智能体规划
推理模型对于代理规划和策略开发至关重要。我们已见证当推理模型作为“规划者”时的成功,它能生成详细、多步骤的问题解决方案,随后根据高智能或低延迟哪个更重要,选择并分配合适的GPT模型(“执行者”)来处理每一步。
使用o1作为代理基础设施中的规划器,使其在工作流中协调其他模型以完成多步骤任务。o1在选择数据类型和将大问题分解为更小的部分方面非常出色,从而使其他模型能够专注于执行。”
----Argon AI,人工智能知识平台,用于制药行业
o1在Lindy中驱动了代理工作流,Lindy是用于工作的AI助手。该模型通过函数调用从日历或电子邮件中提取信息,然后可以自动帮助安排会议、发送电子邮件,并管理日常任务的其他部分。将所有过去存在问题的代理步骤切换到o1,并观察到代理几乎在一夜之间变得完美无缺!”
----Lindy.AI,人工智能助手,用于工作
5. 视觉推理
截至今日,o1是唯一支持视觉能力的推理模型。与GPT-4o相比,o1的独特之处在于它能够处理最具挑战性的视觉内容,例如结构模糊的图表和表格,或是图像质量较差的照片。
---
我们为数百万在线产品自动执行风险和合规审查,包括奢侈珠宝仿制品、濒危物种和受控物质。GPT-4o在我们最困难的图像分类任务中达到了50%的准确率。o1在我们的管道没有任何修改的情况下,实现了令人印象深刻的88%准确率。”
----SafetyKit,人工智能驱动的风险与合规平台
o1可以从高度详细的建筑图纸中识别出固定装置和材料,从而生成一份全面的材料清单。o1可以通过在建筑图纸的一页中使用图例,并在没有明确指示的情况下,将其正确应用于另一页,从而在不同图像之间进行类比。
o系列模型正确读取建筑图纸细节6. 代码审查、调试代码和提升代码质量
推理模型在审查和改进大量代码方面特别有效,通常由于模型的高延迟而在后台运行代码审查。
o3-mini一贯生成高质量、结论性的代码,并且在问题明确界定的情况下,非常频繁地能够找到正确的解决方案,即使面对极具挑战性的编码任务。相比之下,其他模型可能仅适用于小规模、快速的代码迭代,而o3-mini则在规划和执行复杂的软件设计系统方面表现出色。
----Windsurf,协作智能体人工智能驱动的集成开发环境,由Codeium构建
7. 其他模型响应的评估和基准测试
我们还看到推理模型在基准测试和评估其他模型的响应方面表现出色。数据验证对于确保数据集的质量和可靠性非常重要,尤其是在医疗保健等敏感领域。传统验证方法使用预定义的规则和模式,但像o1和o3-mini这样的先进模型能够理解上下文并推理数据,从而实现更灵活和智能的验证方法。
许多客户在Braintrust平台上使用LLM-as-a-judge作为评估流程的一部分。一家医疗保健公司可能会使用像gpt-4o这样的主力模型来总结患者的问题,然后使用o1评估总结的质量。一位Braintrust客户发现,使用4o时,评估者的F1分数为0.12,而使用o1时,分数提升到了0.74!在这些应用场景中,他们发现o1的推理能力在发现完成任务中的细微差别方面,对于最困难和最复杂的评分任务来说,是一个真正的变革者。
----Braintrust,AI评估平台
三、如何有效地触发推理模型
以下是一些最佳实践。
开发者消息是新的系统消息:从o1-2024-12-17开始,推理模型支持开发者消息而不是系统消息,以符合模型规格说明中描述的指挥链行为。
保持提示简洁直接:模型擅长理解和回应简短明确的指令。
避免使用链式思维提示:由于这些模型内部进行推理,提示它们“逐步思考”或“解释你的推理”是不必要的。
使用分隔符以提高清晰度:使用分隔符,如Markdown、XML标签和标题,以明确区分输入的不同部分,帮助模型正确理解各部分信息。
先尝试零样本,如需再尝试少样本:推理模型通常不需要少样本示例即可生成良好结果,因此请先尝试不带示例的提示。如果你对期望输出有更复杂的要求,可以在提示中包含一些输入和期望输出的示例。只需确保示例与提示指令非常一致,因为两者之间的不一致可能会导致不良结果。
提供具体指导:如果你希望明确限制模型的响应方式(例如“提出一个预算在500美元以下的解决方案”),请在提示中明确列出这些限制条件。
明确你的最终目标:在你的指令中,尽量给出非常具体的成功响应参数,并鼓励模型持续推理和迭代,直到符合你的成功标准。
Markdown格式:从o1-2024-12-17开始,API中的推理模型将避免生成包含Markdown格式的响应。如果您希望在响应中包含Markdown格式,请在开发者消息的第一行包含字符串Formatting re-enabled。
以上就是适用于DeepSeek-R1的推理模型应用实践指南的详细内容,更多请关注php中文网其它相关文章!
DeepSeek (深度求索)杭州深度求索(DeepSeek)官方推出的AI助手,免费体验与全球领先AI模型的互动交流。它通过学习海量的数据和知识,能够像人类一样理解和处理信息。多项性能指标对齐海外顶尖模型,用更快的速度、更加全面强大的功能答疑解惑,助力高效美好的生活。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号