美团 longcat 团队正式对外发布并开源全新模型 longcat-flash-thinking-2601,同步公开模型权重、推理代码及在线交互体验服务。
据官方介绍,该模型是此前发布的 LongCat-Flash-Thinking 的全面升级版本,在 Agentic Search(智能体驱动搜索)、Agentic Tool Use(智能体化工具调用)以及 TIR(Tool Interaction Reasoning,工具交互推理)等关键评测任务上,均刷新开源模型的 SOTA(State-of-the-Art)记录。
尤为值得关注的是,LongCat-Flash-Thinking-2601 在工具调用任务中展现出极强的泛化性能,面对高度随机且结构复杂的工具依赖型任务时,其表现已超越 Claude;这显著降低了在真实业务场景中接入新工具所需的定制化训练成本。同时,它也是业内首个完整开源、并支持在线免费体验「重思考模式(Heavy Thinking Mode)」的模型——可同时激活 8 个独立推理单元并行运转,保障思考深度与决策稳健性。
其核心推理机制分为两个协同阶段:
- 并行思考阶段:模型同步生成多条逻辑独立、视角各异的推理路径,模拟人类面对复杂问题时“多角度试错”的思维习惯,并主动增强路径多样性,避免陷入局部最优;
- 总结归纳阶段:对前述多路结果进行交叉验证、逻辑精炼与结构整合,并将优化后的中间结论重新注入推理流程,形成闭环式迭代深化,持续逼近最优解。
项目团队还额外引入了面向“归纳总结能力”的强化学习训练策略,精准强化模型在信息整合、抽象提炼与策略生成方面的表现,真正实现“深思熟虑后再执行”。
综合评测数据显示,LongCat-Flash-Thinking-2601 在编程理解、数学推演、智能体工具调用与智能体搜索四大维度全面领跑:

- 编程能力:在 LCB 基准测试中斩获 82.8 分,OIBench EN 测试达 47.7 分,稳居当前开源模型第一梯队,代码生成质量与逻辑严谨性俱佳;
- 数学推理能力:启用重思考模式后优势凸显,在 AIME-25 测评中满分通关(100.0 分),IMO-AnswerBench 中以 86.8 分刷新现有开源模型最高分,达成 SOTA;
- 智能体工具调用能力:τ²-Bench 得分 88.2,VitaBench 达 29.3,两项指标均为当前开源模型最佳成绩,覆盖金融、医疗、运维等多领域工具链,实用性强;
- 智能体搜索能力:BrowseComp 任务得分 73.1(全模型最高),RW Search 评测获 79.5 分,展现出卓越的信息定位精度与跨场景泛化能力,达到开源领域领先水平。
源码地址:点击下载











