美团longcat团队近日正式推出全新视频生成模型longcat-video,致力于通过视频生成技术路径深入探索“世界模型”的构建,为自动驾驶、具身智能等前沿应用场景提供坚实的技术支撑。

该模型基于DiT(Diffusion in Time)架构设计,创新性地以“条件帧数量”作为任务区分标准,原生支持文本生成视频、图像生成视频以及视频续写等多种模态任务,实现从输入到输出的完整闭环。模型可生成分辨率为720p、帧率达30fps的高清视频内容,并具备原生支持长达5分钟的长视频生成能力。通过多重技术创新,有效缓解了时序一致性与物理合理性的常见问题;同时,经过三重推理优化,整体推理效率相较基线提升达10.1倍。

其136亿参数规模的基座模型在文生视频和图生视频任务中表现卓越,达到当前开源领域的SOTA水平,在VBench等多项权威评测中成绩领先。全面评估结果显示,LongCat-Video在通用性能方面表现出色,综合能力位居开源模型前列:


目前,LongCat-Video模型已全面开源,发布于GitHub、Hugging Face等主流平台,面向全球开发者开放使用。
GitHub:https://www.php.cn/link/8e241a00e2905962b86a2e25a7945c70
Hugging Face:https://www.php.cn/link/1f7c4386bf2c9ff0400445c9e27a1594
Project Page:https://www.php.cn/link/13cd49fe3b1b37f47e6c20a256045cc1
以上就是美团 LongCat 团队发布 LongCat-Video 探索世界模型的详细内容,更多请关注php中文网其它相关文章!
 
                Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号