美团正式推出 longcat-flash-chat,并宣布全面开源。该模型基于创新的混合专家系统(mixture-of-experts, moe)架构,总参数规模达 560b,实际激活参数范围为 18.6b~31.3b(平均约 27b),在保障高性能的同时显著提升了计算效率。
评测结果显示,LongCat-Flash-Chat 作为一款非推理型基础模型,在仅激活少量参数的情况下,整体表现可与当前主流领先模型相媲美,尤其在智能体任务中展现出卓越能力。得益于专为推理效率优化的架构设计,其响应速度大幅提升,特别适用于需要长时间运行的复杂智能体应用场景。
LongCat-Flash 引入了“零计算专家(Zero-Computation Experts)”机制,模型总参数高达 560B,但每个 token 处理时仅根据上下文动态激活 18.6B 至 31.3B 参数,实现算力资源的精准调度与高效使用。为控制整体计算开销,训练过程中引入 PID 控制器实时调节专家层偏置,确保单个 token 的平均激活参数稳定在约 27B。
模型还设计了跨层通信通道,大幅提升了 MoE 架构下计算与通信的并行度,显著增强训练和推理效率。结合定制化的底层系统优化,LongCat-Flash 在 30 天内即完成高效训练,并在 H800 硬件平台上实现超过 100 tokens/s 的用户端推理速度。此外,团队对主流大模型组件和训练流程进行了多项改进,采用超参迁移与模型层叠加策略,配合多种稳定性保障手段,确保训练过程平稳高效。
针对智能体能力的提升,LongCat-Flash 自主构建了 Agentic 评测集以指导数据筛选与训练策略优化,采用多智能体协同生成机制产出丰富且高质量的行为轨迹数据,在整个训练链路中深度优化智能体表现,最终实现行业领先的 Agentic 能力。
通过算法与工程系统的协同创新,LongCat-Flash 在理论成本与推理速度上均超越同级别甚至更小规模的现有模型;经系统级优化后,在 H800 上实现 100 tokens/s 的生成速率,同时将输出成本压缩至仅 5元/百万 token。

官方同步提供基于 SGLang 和 vLLM 的两种高效部署方式。以下为使用 SGLang 在单机环境下部署的示例命令:
python3 -m sglang.launch_server \`` --model meituan-longcat/LongCat-Flash-Chat-FP8 \`` --trust-remote-code \`` --attention-backend flashinfer \`` --enable-ep-moe \`` --tp 8
源码地址:点击下载
以上就是美团正式发布并开源 LongCat-Flash-Chat的详细内容,更多请关注php中文网其它相关文章!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号