首页 > 新闻 > IT新闻 > 正文

美团正式发布并开源 LongCat-Flash-Omni

碧海醫心
发布: 2025-11-03 17:52:11
原创
841人浏览过

美团宣布 longcat-flash 系列模型迎来新突破,正式推出全新成员——longcat-flash-omni。

美团正式发布并开源 LongCat-Flash-Omni

据悉,LongCat-Flash-Omni 是业内首个集“全模态覆盖、端到端架构、大参数量高效推理”于一身的开源大语言模型。该模型首次在开源领域实现了多模态能力与闭源模型的全面对标,依托创新的架构设计与深度工程优化,使具备大规模参数的模型在处理多模态任务时仍可实现毫秒级响应,有效攻克了行业长期面临的高延迟推理难题。

基于 LongCat-Flash 系列原有的高效结构(Shortcut-Connected MoE,含零计算专家),LongCat-Flash-Omni 进一步融合了高效的多模态感知模块和语音重建技术。即便总参数高达5600亿(激活参数为270亿),依然能够支持低延迟的实时音视频交互,为开发者在复杂多模态场景下的应用落地提供了更加强大且高效的解决方案。

综合评测显示,LongCat-Flash-Omni 在多项全模态基准测试中达到开源模型中的最先进水平(SOTA),并在文本理解、图像识别、视频分析以及语音感知与生成等单项任务中表现出卓越性能,竞争力显著。

作为一款追求极致性能的开源全模态模型,LongCat-Flash-Omni 在统一框架下整合了离线多模态理解与实时音视频交互能力。其采用完全端到端的架构设计,以轻量级视觉与音频编码器作为输入感知模块,由大语言模型直接处理原始输入并生成文本与语音 token,再通过轻量化音频解码器还原为自然语音波形,从而实现流畅、低延时的实时对话体验。

LongCat AI
LongCat AI

美团推出的AI对话问答工具

LongCat AI 169
查看详情 LongCat AI

所有核心组件均针对流式推理进行了高度优化:视觉编码器与音频编解码器均为约6亿参数的小型化设计,延续了 LongCat-Flash 系列一贯的高效理念,在保证强大性能的同时实现了推理效率的最大化,达成了性能与成本之间的理想平衡。

LongCat-Flash-Omni 的整体模型架构如下所示:

美团正式发布并开源 LongCat-Flash-Omni

Hugging Face:https://www.php.cn/link/2ae659bde981b0ad9c0f24835a8d1232
Github:https://www.php.cn/link/f1cc3b90f5460d50d5200128a455979d

以上就是美团正式发布并开源 LongCat-Flash-Omni的详细内容,更多请关注php中文网其它相关文章!

美团
美团

美团app是一款吃喝玩乐一应俱全的生活服务类软件,汇集团购、美食、酒店、外卖、电影、美发、美甲、KTV等服务于一体,为用户提供非常便利且全面的服务,有需要的小伙伴快来保存下载体验吧!

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号