苹果在 github 上正式开源了 starflow-v 项目,这是一款参数量达 70 亿的视频生成模型。
据官方介绍,STARFlow-V 构建于 Normalizing Flow(归一化流)架构之上,工作于联合时空潜在空间中,并采用全局-局部协同设计,兼顾生成效率与视觉保真度。该模型最高可输出分辨率为 640×480(即 480p)、时长为 81 帧(以 16 FPS 播放,约持续 5 秒)的视频序列。实验结果表明,基于归一化流的方法在视频生成质量上已能与主流视频扩散模型比肩。


STARFlow-V 是业界首个基于归一化流的因果式视频生成模型,支持端到端训练、天然具备似然估计能力,并原生兼容文本驱动视频生成(T2V)、图像驱动视频生成(I2V)以及视频编辑类任务(V2V),整个过程无需调整网络结构或重新训练模型。
项目主页:https://www.php.cn/link/a1810b42dcc83a4a1ba801293085aec7
源码仓库:点击下载
以上就是苹果发布开源视频生成模型 STARFlow-V的详细内容,更多请关注php中文网其它相关文章!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号