微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

最近更新

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程

首页 > 科技周边 > 人工智能 > 正文

华人团队颠覆CV！SEEM完美分割一切爆火，一键分割「瞬息全宇宙」

王林

发布： 2023-05-14 22:13:04

转载

1397人浏览过

Meta的「分割一切」的横空出世，让许多人惊呼CV不存在了。

基于这一模型，众网友纷纷做了进一步工作，比如Grounded SAM。

将Stable Diffusion、Whisper、ChatGPT结合使用，就能做到通过语音让一只狗变成一只猴子。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

华人团队颠覆CV！SEEM完美分割一切爆火，一键分割「瞬息全宇宙」

而现在，不仅仅是语音，你可以通过多模态提示实现一次性分割所有地方的一切。

具体怎么做？

鼠标点一下，直接选中分割内容。

华人团队颠覆CV！SEEM完美分割一切爆火，一键分割「瞬息全宇宙」

张口一句话。

华人团队颠覆CV！SEEM完美分割一切爆火，一键分割「瞬息全宇宙」

随手一涂，完整的表情包就来了。

华人团队颠覆CV！SEEM完美分割一切爆火，一键分割「瞬息全宇宙」

甚至，还能分割视频。

华人团队颠覆CV！SEEM完美分割一切爆火，一键分割「瞬息全宇宙」

最新研究SEEM是由威斯康星大学麦迪逊分校、微软研究院等机构的学者共同完成。

通过SEEM使用不同种类的提示，视觉提示（点、标记、框、涂鸦和图像片段）、以及语言提示（文本和音频）轻松分割图像。

华人团队颠覆CV！SEEM完美分割一切爆火，一键分割「瞬息全宇宙」

论文地址：https://arxiv.org/pdf/2304.06718.pdf

uBrand Logo生成器

uBrand Logo生成器是一款强大的AI智能LOGO设计工具。

124

这个论文标题有意思的地方在于，与2022年上映的一部美国科幻电影「瞬息全宇宙」（Everything Everywhere All at Once）的名字非常相似。

华人团队颠覆CV！SEEM完美分割一切爆火，一键分割「瞬息全宇宙」

英伟达科学家Jim Fan表示，奥斯卡最佳论文标题奖颁给「Segment Everything Everywhere All at Once」

拥有一个统一的、多功能的任务规范界面是扩大大型基础模型规模的关键。多模态提示是未来的方向。

华人团队颠覆CV！SEEM完美分割一切爆火，一键分割「瞬息全宇宙」

看过论文后，网友表示，CV现在也要开始拥抱大模型了，研究生未来出路在哪？

华人团队颠覆CV！SEEM完美分割一切爆火，一键分割「瞬息全宇宙」

奥斯卡最佳标题论文

正是受到基于提示的LLMs通用接口发展的启发，研究人员提出了SEEM。

如图所示，SEEM模型可以在没有提示的开放集中执行任何分割任务，比如语义分割、实例分割和全景分割。

华人团队颠覆CV！SEEM完美分割一切爆火，一键分割「瞬息全宇宙」

此外，它还支持任意组合的视觉，文本和引用区域提示，允许多功能和交互式的引用分割。

在模型架构上，SEEM采用了常见的编码器-解码器架构。其独特的地方在于具有查询和提示之间复杂的交互。

华人团队颠覆CV！SEEM完美分割一切爆火，一键分割「瞬息全宇宙」

特征和提示被相应的编码器，或采样器编码到一个联合的视觉语义空间。

可学习查询是随机初始化，SEEM解码器接受可学习查询、图像特征和文本提示作为输入和输出，包括类和掩码嵌入，用于掩码和语义预测。

值得一提的是，SEEM模型有多轮交互。每一轮都包含一个人工循环和一个模型循环。

在人工循环中，人工接收上一次迭代的掩码输出，并通过视觉提示给出下一轮解码的正反馈。在模型循环中，模型接收并更新未来预测的记忆提示。

华人团队颠覆CV！SEEM完美分割一切爆火，一键分割「瞬息全宇宙」

通过SEEM，给一个擎天柱卡车的图，就能分割任何目标图像上的擎天柱。

华人团队颠覆CV！SEEM完美分割一切爆火，一键分割「瞬息全宇宙」

通过用户输入的文本生成掩模，进行一键分割。

华人团队颠覆CV！SEEM完美分割一切爆火，一键分割「瞬息全宇宙」

另外，SEEM通过对引用图像的简单点击，或涂鸦，就能够对目标图像上有相似语义的对象进行分割。

华人团队颠覆CV！SEEM完美分割一切爆火，一键分割「瞬息全宇宙」

此外，SEEM非常了解解空间关系。左上行斑马被涂鸦后，也会分割出最左边的斑马。

华人团队颠覆CV！SEEM完美分割一切爆火，一键分割「瞬息全宇宙」

SEEM还可以将图像引用到视频掩码，不需要任何视频数据训练，都能完美分割视频。

华人团队颠覆CV！SEEM完美分割一切爆火，一键分割「瞬息全宇宙」

华人团队颠覆CV！SEEM完美分割一切爆火，一键分割「瞬息全宇宙」

数据集和设置上，SEEM在三种数据集接受了训练：全景分割，引用分割和交互式分割。

交互式分割

在交互式分割上，研究者将SEEM与最先进的交互式分割模型进行了比较。

作为一个通用模型，SEEM获得了RITM，SimpleClick等相当的性能。而且与SAM取得非常相似的性能，SAM还多用了50个分割数据进行训练。

值得注意的是，与现有的交互式模型不同，SEEM是第一个不仅支持经典的分割任务，而且还支持广泛的多模态输入，包括文本、点、涂鸦、边界框和图像，提供了强大的组合能力。

华人团队颠覆CV！SEEM完美分割一切爆火，一键分割「瞬息全宇宙」

通用分割

通过对所有分割任务预先训练的一组参数，研究者可以直接评估它在通用分割数据集上的性能。

SEEM实现了比较好的全景视图，实例和语义分割性能。

华人团队颠覆CV！SEEM完美分割一切爆火，一键分割「瞬息全宇宙」

研究人员对SEEM有四个期望目标：

1. 多功能性：通过引入多功能提示引擎处理不同类型的提示，包括点、框、涂鸦、遮罩、文本和另一图像的引用区域；

2. 复合性：通过学习一个联合视觉-语义空间，为视觉和文本提示组合即时查询进行推理；

3. 交互性：通过整合可学习的记忆提示，通过掩码引导的交叉注意力保留对话历史信息；

4. 语义感知：通过使用文本编码器对文本查询和遮罩标签进行编码，实现开放词汇表的分割。

和SAM区别

Meta提出的SAM模型，可以在一个统一框架prompt encoder内，指定一个点、一个边界框、一句话，一键分割出物体。

华人团队颠覆CV！SEEM完美分割一切爆火，一键分割「瞬息全宇宙」

SAM具有广泛的通用性，即具有了零样本迁移的能力，足以涵盖各种用例，不需要额外训练，就可以开箱即用地用于新的图像领域，无论是水下照片，还是细胞显微镜。

华人团队颠覆CV！SEEM完美分割一切爆火，一键分割「瞬息全宇宙」

研究者就三个分割任务（边缘检测、开放集和交互式分割）的交互和语义能力对SEEM和SAM进行了比较。

在开放集分割上，同样需要高水平的语义，并且不需要交互。

与SAM相比，SEEM涵盖了更广泛的交互和语义层次。

SAM只支持有限的交互类型，比如点和边界框，而忽视了高语义任务，因为它本身不输出语义标签。

对于SEEM，研究者点出了两个亮点：

首先，SEEM有一个统一的提示编码器，将所有的视觉和语言提示编码到一个联合表示空间中。因此，SEEM可以支持更通用的用法，它有可能扩展到自定义提示。

其次，SEEM在文本掩码和输出语义感知预测方面做得很好。

华人团队颠覆CV！SEEM完美分割一切爆火，一键分割「瞬息全宇宙」

作者介绍

论文一作Xueyan Zou

她目前是威斯康星大学麦迪逊分校的计算机科学系博士生，导师是Yong Jae Lee教授。

在此之前，Zou在加州大学戴维斯分校度过了三年时光，由同一位导师指导，并与Fanyi Xiao博士密切合作。

她在香港浸会大学获得了学士学位，由PC Yuen教授和褚晓文教授指导。

华人团队颠覆CV！SEEM完美分割一切爆火，一键分割「瞬息全宇宙」

Jianwei Yang

华人团队颠覆CV！SEEM完美分割一切爆火，一键分割「瞬息全宇宙」

Yang是Redmond微软研究院深度学习组的高级研究员，由高剑峰博士指导。

Yang的研究主要集中在计算机视觉、视觉与语言和机器学习。他主要研究不同层次的结构化视觉理解，以及如何进一步利用它们通过语言和环境的体现与人类进行智能交互。

在2020年3月加入微软之前，Yang在佐治亚理工学互动计算学院获得了计算机科学博士学位，他的导师是Devi Parikh教授，他还与Dhruv Batra教授密切合作。

高剑峰

华人团队颠覆CV！SEEM完美分割一切爆火，一键分割「瞬息全宇宙」

高剑峰是微软研究院的杰出科学家和副总裁，IEEE会员，以及ACM杰出会员。

目前，高剑峰领导着深度学习小组。该小组的任务是推动深度学习的最先进技术及其在自然语言和图像理解方面的应用，并在对话模型和方法方面取得进展。

研究主要包括，用于自然语言理解和生成的神经语言模型、神经符号计算、视觉语言的基础和理解、对话式人工智能等等。

2014年到2018年，高剑峰在微软人工智能与研究部和Redmond微软研究院的深度学习技术中心（DLTC）担任商业人工智能的合作伙伴研究经理。

2006年到2014年，高剑峰在自然语言处理组担任首席研究员。

Yong Jae Lee

华人团队颠覆CV！SEEM完美分割一切爆火，一键分割「瞬息全宇宙」

Lee是华盛顿大学麦迪逊分校计算机科学系的副教授。

他在2021年秋季加入华盛顿大学麦迪逊分校之前，曾在Cruise担任过一年的人工智能客座教师，在此之前，他在加州大学戴维斯分校担任了6年的助理和副教授。

他还曾在卡内基梅隆大学的机器人研究所做了一年的博士后研究员。

他于2012年5月在德克萨斯大学奥斯汀分校获得博士学位，师从Kristen Grauman，并于2006年5月在伊利诺伊大学厄巴纳-香槟分校获得学士学位。

他还曾作为微软研究院的暑期实习生与Larry Zitnick和Michael Cohen一起工作。

目前，Lee的研究集中在计算机视觉和机器学习。Lee对创建强大的视觉识别系统格外感兴趣，该系统可以在最少的人类监督下理解视觉数据。

目前，SEEM已经开放了演示demo：

https://huggingface.co/spaces/xdecoder/SEEM

快上手试试吧。

以上就是华人团队颠覆CV！SEEM完美分割一切爆火，一键分割「瞬息全宇宙」的详细内容，更多请关注php中文网其它相关文章！

相关标签：

chatgpt

大家都在看：

deepseek怎样针对不同用户群定制交互_用户群定制交互方案【方案】 deepseek怎样实现跨领域知识融合回答_跨领域融合回答步骤【步骤】 Gemini高级版怎么用 Gemini Advanced功能全面解析【指南】 ChatGPT怎么分析Excel文件 ChatGPT高级数据分析功能使用【详解】 Perplexity怎么生成图片 Perplexity AI绘画与图像生成功能教程【方法】

最佳 Windows 性能的顶级免费优化软件

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移，垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是，许多工具可以让 Windows 保持平稳运行。

来源：51CTO.COM网

上一篇：OpenAI新生成模型开源炸场！比Diffusion更快更强，清华校友宋飏一作下一篇：人工智能和自动化：为商业及其他领域的未来赋能

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

告别繁琐手动创建！MezzioTooling助你高效构建现代PHP应用

2025-09-15 11:32:40
如何解决复杂命令行任务的痛点，使用spryker/console让PHP命令开发更高效

2025-09-15 11:55:29
如何高效且灵活地管理电商订单计算？Spryker/Calculation模块助你一臂之力

2025-09-15 12:32:03
如何高效集成在线支付功能？Composer与iyzico/iyzipay-php助你轻松搞定！

2025-09-16 10:12:03
还在为Magento2慢吞吞的搜索发愁？AlgoliaSearch&Discovery助你打造闪电般的用户体验！

2025-09-16 10:34:02
如何解决电商库存管理混乱难题？Spryker/Stock模块助你轻松搞定！

2025-09-16 11:12:26
快速上手夸克浏览器AI搜索_夸克AI搜索保姆级图文教程

2025-10-14 20:48:01
夸克浏览器AI搜索无法使用_解决夸克AI搜索问题的有效方法

2025-10-15 14:04:02
夸克浏览器AI搜索设置教程_夸克AI搜索功能详细开启步骤

2025-10-18 13:32:01
夸克浏览器AI搜索结果不准_优化夸克AI搜索设置的技巧

2025-10-26 10:58:02

最新问题

deepseek怎么防止生成重复内容_避免重复输出方法【避坑】调整温度参数至0.8~1.0、启用重复惩罚（1.2~1.5）、控制生成长度（128~256）、使用Top-k与Top-p采样，并在提示中加入避免重复指令，可有效减少DeepSeek模型的重复输出。

2025-11-28 08:17:59

523

抖音AI如何用文字描述生成虚拟主播_抖音AI文字生成虚拟主播攻略【攻略】答案：通过AI平台文字描述生成虚拟主播形象，结合脚本与语音合成技术制作视频，并添加动态场景后发布至抖音。具体步骤包括：1、登录支持AI数字人的平台，使用“文本生成形象”功能输入外貌特征创建角色；2、利用智能脚本生成功能生成并优化播报内容，绑定至数字人并选择音色进行口型同步合成；3、为视频添加动态背景并调整图层位置，通过实景抠像或推流直接发布到抖音。

2025-11-27 22:21:06

891

deepseek能否根据情绪调整语气风格_情绪化语气调节步骤【设置】开启情绪感知并设置语气模板，通过自定义情绪映射绑定语言风格，手动标注情绪标签以精准匹配回应，再调节语气强度滑块控制情感浓度，实现个性化情感交互。

2025-11-27 22:20:50

483

DeepSeek怎么进行多语言翻译 DeepSeek专业翻译功能使用教程【方法】 DeepSeek提供高效多语言翻译功能，支持网页端实时翻译、API批量处理及提示词优化。首先可通过官网对话界面输入文本并指定目标语言完成即时翻译；其次开发者可调用API实现自动化流程，适用于大量文档处理；最后结合结构化提示词工程，可提升技术或法律等专业领域翻译的准确性与一致性。

2025-11-27 22:20:02

875

deepseek怎样识别并过滤敏感内容_敏感信息过滤设置步骤【设置】需配置DeepSeek敏感内容过滤机制以确保合规，首先开启内容安全监测功能并启用实时扫描；接着在控制台自定义敏感词库，添加特定违规词汇并分类管理；随后设置过滤响应策略，定义拦截、替换或提示等处理方式；最后启用上下文感知检测模型，提升对隐晦表达和变体拼写的识别精度。

2025-11-27 22:20:02

338

Grok怎么切换常规模式 Grok标准模式与趣味模式切换方法【详解】 Grok提供RegularMode与FunMode两种回答风格，用户可通过网页版模型选择器或移动端长按输入框手动切换；默认的Auto模式会根据问题内容智能判断回复风格，科学类问题偏向严谨，娱乐类问题偏向幽默，若不符合预期可手动调整。

2025-11-27 22:19:35

957

deepseek怎样通过关键词整合多轮对话重点_通过关键词整合deepseek多轮对话重点教程【教程】通过关键词提取与整合可有效追踪多轮对话核心内容：一、用Jieba等工具结合TF-IDF或TextRank算法提取高频词；二、手动标注关键词并分类归档，构建对话脉络；三、采用滑动窗口动态更新关键词集，捕捉话题演变；四、利用Sentence-BERT向量相似度匹配强化关键词关联，绘制知识网络图以明晰逻辑路径。

2025-11-27 22:19:02

174

豆包AI怎样调整翻译模式保留原文语境_调整豆包AI翻译模式保留原文语境教程【教程】启用上下文感知功能可提升译文语境还原度，需登录豆包AI官网进入翻译界面，点击高级设置并勾选上下文理解，将范围调至段落级；随后在模式选择中匹配相应情境模板如文学创作或商务沟通，对修辞内容启用修辞保留模式；接着通过新建配置文件，在术语映射表中添加专有名词及期望译法，并在语气参数中设定正式程度、情感强度与句式复杂度；最后利用人工校对优化机制，编辑结果并提交修改建议，系统将记录调整用于后续优化，多次校正可触发个性化模型微调以持续提升翻译准确性。

2025-11-27 22:17:02

118

豆包ai怎么写短视频脚本豆包ai爆款视频文案创作方法【秘籍】豆包AI可通过模仿热门结构、设定专业角色和批量生成脚本三种方法高效创作短视频内容。首先，复制高赞视频文案并指令AI分析结构，生成含悬念开头、中段反转、互动结尾的5条新脚本；其次，赋予AI“资深导演”等身份，针对特定主题输出口语化、带金句与提问的定制文案，并可优化语气贴近真实人设；最后，通过综合指令让AI以表格形式批量产出多主题分镜脚本，涵盖美食、职场、亲子类，每条包含标题、画面描述、旁白及运镜建议，提升创作效率与多样性。

2025-11-27 22:16:02

910

deepseek怎样通过关键词控制回答详略程度_通过关键词控制deepseek回答详略程度步骤【设置步骤】通过使用明确指令词、角色设定、分步提问和指定输出格式，可精准控制模型回答的详略程度。首先，在提问时添加“用一句话回答”“简要说明”或“详细解释”等关键词，直接调控回答长度；其次，结合“你是一名资深研究员”等角色设定，使内容风格与深度更贴合需求；再次，将复杂问题拆解为多个子问题，逐层使用不同详略指令获取结构化信息；最后，通过要求“列表”“短文”或“案例分析”等输出格式，间接控制信息密度。例如，“列出五种可再生能源”得简洁答案，而“撰写一篇关于全球变暖的300字短文”则触发更详尽叙述。该方法系统提升

2025-11-27 22:15:57

337

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

Go 教程

20674次学习
收藏
R 教程

29630次学习
收藏
Bootstrap 5教程

21248次学习
收藏

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新 English: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

PHP中文网APP: 随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部