微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程

首页 > 科技周边 > 人工智能 > 正文

Sora之后，苹果发布视频生成大模型STIV，87亿参数一统T2V、TI2V任务

霞舞

发布： 2024-12-12 18:33:37

原创

855人浏览过

apple mm1team 团队最新力作：87亿参数的苹果视频生成大模型stiv，支持多模态条件，性能超越pika、kling和gen-3。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

AIxiv专栏持续报道全球顶尖AI研究成果，已收录2000多篇内容，涵盖高校及企业顶级实验室。欢迎投稿或联系报道！（投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com）

紧随OpenAI发布Sora之后，苹果发布了其多模态视频生成大模型STIV，论文已发表于arXiv（论文地址：https://www.php.cn/link/07b95840d88e2f1c033865fba89f624b），Hugging Face链接：https://www.php.cn/link/5d4d48d0359e45e4fdf997818d6407fd）。该模型拥有87亿参数，支持文本和图像条件下的视频生成。

STIV 旨在克服现有文本到视频（T2V）模型在生成连贯、真实视频方面的挑战，并高效地将图像条件融入Diffusion Transformer (DiT) 架构。该研究提供了全面的技术报告，涵盖模型架构、训练策略、数据集以及下游应用，实现了T2V和文本-图像到视频（TI2V）任务的统一处理。

主要贡献和亮点：

提出STIV模型，统一处理T2V和TI2V任务，并通过JIT-CFG显著提升生成质量；
系统性研究了T2I、T2V和TI2V模型的架构设计、高效稳定的训练技术以及渐进式训练策略；
模型易于训练且具有强大的适应性，可扩展至视频预测、帧插值和长视频生成等任务；
实验结果在VBench基准数据集上展现了STIV的优势，包括详细的消融实验和对比分析。

STIV不仅提升了视频生成质量，也为其在更多应用场景中的推广奠定了基础。

STIV模型架构及训练策略详解

STIV基于PixArt-Alpha架构，并进行了多项优化，包括时空注意力分解、条件嵌入、旋转位置编码（RoPE）和流匹配目标函数等。在训练方面，采用稳定训练策略（QK-Norm、sandwich-norm）和高效训练改进（MaskDiT、AdaFactor、梯度检查点），支持更大规模模型的训练。

腾讯混元文生视频

腾讯混元文生视频

腾讯发布的AI视频生成大模型技术

腾讯混元文生视频

137

腾讯混元文生视频

图像条件融合方法包括简单的帧替换和图像条件随机丢弃，并结合联合图像-文本无分类器引导（JIT-CFG）进一步提升生成质量。此外，采用渐进式训练策略，先训练T2I模型，再训练T2V模型，最后训练STIV模型，提高训练效率。

数据集与评估

数据预处理包括场景分割和特征提取，以确保输入数据的质量。视频字幕生成采用高效的视频字幕生成器和LLM分类，并通过DSG-Video模块评估字幕的丰富度和准确性。

实验结果与应用

实验结果表明，STIV在VBench基准测试中超越了PIKA、KLING和Gen-3等模型。 STIV还可应用于视频预测、帧插值和长视频生成等任务。

更多细节请参考原文论文。

以上就是Sora之后，苹果发布视频生成大模型STIV，87亿参数一统T2V、TI2V任务的详细内容，更多请关注php中文网其它相关文章！

相关标签：

苹果 ai 邮箱架构 transformer https

大家都在看：

DeepSeekOCR部署后如何导出识别结果_本地部署识别结果导出与保存方法 DeepSeekOCR识别后如何导出Word_DeepSeekOCR识别结果导出为Word文档的方法 DeepSeekOCR识别后怎么转成TXT_DeepSeekOCR识别结果导出为TXT文本方法即梦4.0怎样使用动态特效_即梦4.0为静态图添加动态效果的操作方法即梦4.0如何使用高斯模糊效果_即梦4.0模糊工具使用与景深效果调节教程

数码产品性能查询

数码产品性能查询

该软件包括了市面上所有手机CPU，手机跑分情况，电脑CPU，电脑产品信息等等，方便需要大家查阅数码产品最新情况，了解产品特性，能够进行对比选择最具性价比的商品。

来源：php中文网

上一篇：梅安森与曙光科技达成战略合作，将打造智慧矿山底座和综合解决方案下一篇：多维科技“一种电流传感器”专利获授权

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

最新问题

秘塔AI编辑图片入口在哪里 AI图像编辑秘塔入口一键直达秘塔AI编辑图片入口位于官网首页“图像工坊”快捷按钮，点击即可直达https://www.mita-ai.com/image-editor，支持拖拽上传、智能去背景、局部重绘与滤镜风格化等功能，无需注册即可使用。

2025-11-09 04:21:22

343

即梦4.0怎样使用色彩分离功能_即梦4.0色彩分层与分离效果使用方法即梦4.0可在iPadPro上通过滤镜模块实现色彩分离，将图像颜色按色相或亮度拆分为3-8个可编辑图层，支持手动调节色相、饱和度与容差，并可导出为分层PNG用于后续设计。

2025-11-09 04:15:18

189

夸克A眼镜如何连接车载系统_夸克A眼镜与汽车系统互联使用方法要实现夸克AI眼镜与汽车互联，需通过蓝牙连接、手机中转或启用近眼导航Agent。首先可将眼镜作为蓝牙音频设备接收导航语音；其次通过已连接CarPlay/CarLife+的手机同步导航信息至眼镜；最后可激活夸克-高德联合导航Agent，实现近眼显示关键路况提示，提升驾驶安全性。

2025-11-09 03:29:32

970

Cursor 2.0携自研模型Composer登场，编码工具新变革谁能胜出？ Cursor2.0重磅发布，推出两项关键升级：全新自研编码模型Composer，以及支持多智能体并行协作的革命性界面。这一版本标志着Cursor正式从“AI增强编辑器”迈向“AI原生开发平台”的关键转折。此前，尽管Cursor广受开发者青睐，常被称为“AI时代的VSCode”，但其核心依赖Claude、GPT等第三方大模型，这种架构虽为其起步提供了便利，也逐渐成为性能与体验优化的瓶颈。如今，随着Composer的诞生，Cursor终于迈出了摆脱外部依赖、构建自主技术壁垒的重要一步。![图片1]C

2025-11-08 23:38:20

448

OpenAI PPT生成入口在哪里 OpenAI AI PPT一键直达入口 OpenAI暂未推出独立PPT生成工具，目前可通过ChatGPT平台实现，入口为https://openai.com/blog/chatgpt。

2025-11-08 23:12:03

916

抖音爆款AI视频免费制作手机AI短视频生成入口抖音爆款AI视频免费制作入口在即梦AI官网，用户可通过其H5页面或应用输入文字一键生成带场景、角色的短视频，并支持编辑、配音及分享至抖音等平台。

2025-11-08 23:12:02

1004

即梦4.0怎样开启夜间模式_即梦4.0夜间模式设置与护眼使用技巧开启夜间模式可缓解即梦4.0屏幕过亮问题。1、在应用内“我的-设置-显示与亮度”中开启夜间模式；2、通过系统“显示与亮度”设置深色外观，应用自动同步；3、使用“快捷指令”创建自动化任务，定时切换系统深色模式，实现夜间护眼。

2025-11-08 22:55:02

892

deepseekOCR文字识别工具使用门户 deepseek-ocr免注册使用操作指南 deepseekOCR文字识别工具使用门户是https://deepseek-ocr.com，进入官网后无需注册即可使用，用户可上传JPG、PNG、BMP、PDF等格式文件（单个不超过20MB），系统在10秒内完成文字提取并支持复制或导出为TXT，具备多语言混合识别、版面保留、批量处理等功能，且所有数据在客户端处理保障隐私。

2025-11-08 22:49:02

492

即梦4.0如何分享作品到社交平台_即梦4.0作品分享链接生成与发布方法首先生成作品分享链接并设置访问权限，再通过内置社交图标或手动粘贴方式将链接发布至社交平台进行传播。

2025-11-08 22:35:02

474

即梦4.0怎样使用图像压缩功能_即梦4.0在不失真情况下压缩图片大小的教程即梦4.0提供三种无损压缩方案：一、使用“智能无损压缩”模式，通过去除元数据和优化编码降低文件大小；二、调整PNG优化级别至8级，并删除隐藏图层与冗余信息；三、启用WebP无损转换，选择无损格式并关闭信息保留以提升效率，确保画质一致。

2025-11-08 22:34:02

330

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新 English: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

PHP中文网APP: 随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部