微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程

首页 > 科技周边 > 人工智能 > 正文

CLIP当RNN用入选CVPR：无需训练即可分割无数概念｜牛津大学&谷歌研究院

WBOY

发布： 2024-06-06 09:10:31

转载

1135人浏览过

循环调用clip，无需额外训练就有效分割无数概念。

包括电影动漫人物，地标，品牌，和普通类别在内的任意短语。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

CLIP当RNN用入选CVPR：无需训练即可分割无数概念｜牛津大学&谷歌研究院

牛津大学与谷歌研究院联合团队的这项新成果，已被CVPR 2024接收，并开源了代码。

CLIP当RNN用入选CVPR：无需训练即可分割无数概念｜牛津大学&谷歌研究院

团队提出名为CLIP as RNN（简称CaR）的新技术，解决了开放词汇量图像分割领域中的几个关键问题：

无需训练数据：传统方法需要大量的掩膜注释或图像-文本数据集进行微调，CaR技术则无需任何额外的训练数据即可工作。
开放词汇量的限制：预训练的视觉-语言模型（VLMs）在经过微调后，其处理开放词汇量的能力受到限制。CaR技术保留了VLMs的广泛词汇空间。
对非图像中概念的文本查询处理：在没有微调的情况下，VLMs难以对图像中不存在的概念进行准确分割，CaR通过迭代过程逐步优化，提高了分割质量。

受RNN启发，循环调用CLIP

要理解CaR的原理，需要先回顾一下循环神经网络RNN。

RNN引入了隐藏状态（hidden state）的概念，就像是一个“记忆体”，存储了过去时间步的信息。而每个时间步共享同一组权重，可以很好地建模序列数据。

受RNN启发，CaR也设计成循环的框架，由两部分组成：

掩膜提议生成器：借助CLIP为每个文本查询生成一个mask。
掩膜分类器：再用一个CLIP模型，评估生成的每个mask和对应的文本查询的匹配度。如果匹配度低，就把那个文本查询剔除掉。

就这样反复迭代下去，文本查询会越来越精准，mask的质量也会越来越高。

最后当查询集合不再变化，就可以输出最终的分割结果了。

CLIP当RNN用入选CVPR：无需训练即可分割无数概念｜牛津大学&谷歌研究院

之所以要设计这个递归框架，是为了最大限度地保留CLIP预训练的”知识”。

CLIP预训练中见过的概念可是海量，涵盖了从名人、地标到动漫角色等方方面面。如果在分割数据集上微调，词汇量势必会大幅缩水。

例如“分割一切”SAM模型就只能认出一瓶可口可乐，百事可乐是一瓶也不认了。

来画数字人直播

来画数字人直播

来画数字人自动化直播，无需请真人主播，即可实现24小时直播，无缝衔接各大直播平台。

来画数字人直播

0

来画数字人直播

CLIP当RNN用入选CVPR：无需训练即可分割无数概念｜牛津大学&谷歌研究院

但是直接拿CLIP做分割，效果又不尽如人意。

这是因为CLIP的预训练目标本来就不是为密集预测设计的。尤其是当图像中不存在某些文本查询时，CLIP很容易生成一些错误的mask。

CaR巧妙地通过RNN式的迭代来解决这个问题。通过反复评估、筛选查询，同时完善mask，最终实现了高质量的开放词汇分割。

最后再来跟随团队的解读，了解一下CaR框架的细节。

CaR技术细节

CLIP当RNN用入选CVPR：无需训练即可分割无数概念｜牛津大学&谷歌研究院

循环神经网络框架：CaR采用了一个新颖的循环框架，通过迭代过程不断优化文本查询与图像之间的对应关系。
两阶段分割器：由掩膜提议生成器和掩膜分类器组成，均基于预训练的CLIP模型构建，且权重在迭代过程中保持不变。
掩膜提议生成：使用gradCAM技术，基于图像和文本特征的相似度得分来生成掩膜提议。
视觉提示：应用如红圈、背景模糊等视觉提示，以增强模型对图像特定区域的关注。
阈值函数：通过设置相似度阈值，筛选出与文本查询对齐程度高的掩膜提议。
后处理：使用密集条件随机场（CRF）和可选的SAM模型进行掩膜细化。

通过这些技术手段，CaR技术在多个标准数据集上实现了显著的性能提升，超越了传统的零样本学习方法，并在与进行了大量数据微调的模型相比时也展现出了竞争力。如下表所示，尽管完全无需额外训练及微调，CaR在零样本语义分割的8个不同指标上表现出比之前在额外数据上进行微调过的方法更强的性能。

CLIP当RNN用入选CVPR：无需训练即可分割无数概念｜牛津大学&谷歌研究院

作者还测试了CaR在零样本Refering segmentation的效果，CaR也表现出了相较之前零样本的方法表现出更强的性能。

CLIP当RNN用入选CVPR：无需训练即可分割无数概念｜牛津大学&谷歌研究院

综上所述，CaR（CLIP as RNN）是一种创新的循环神经网络框架，能够在无需额外训练数据的情况下，有效地进行零样本语义和指代图像分割任务。它通过保留预训练视觉-语言模型的广泛词汇空间，并利用迭代过程不断优化文本查询与掩膜提议的对齐度，显著提升了分割质量。

CaR的优势在于其无需微调、处理复杂文本查询的能力和对视频领域的扩展性，为开放词汇量图像分割领域带来了突破性进展。

论文链接：https://arxiv.org/abs/2312.07661。
项目主页：https://torrvision.com/clip_as_rnn/。

以上就是CLIP当RNN用入选CVPR：无需训练即可分割无数概念｜牛津大学&谷歌研究院的详细内容，更多请关注php中文网其它相关文章！

相关标签：

神经网络递归循环 rnn https

大家都在看：

夸克AI搜索中文首页入口夸克官方最新官网地址与设置指南 DeepSeekOCR部署后如何优化网络延迟_网络配置优化与访问速度提升方法 AI搜索引擎名称百度AI搜索官方网站直达入口指南夸克AI搜索免登录官网入口地址夸克AI搜索引擎官网入口有道智云官网入口有道智云生成图片官方网址入口

谷歌浏览器

谷歌浏览器

谷歌浏览器Google Chrome是一款可让您更快速、轻松且安全地使用网络的浏览器。Google Chrome的设计超级简洁，使用起来得心应手。这里提供了谷歌浏览器纯净安装包，有需要的小伙伴快来保存下载体验吧！

来源：51CTO.COM网

上一篇：把整个地球装进神经网络，北航团队推出全球遥感图像生成模型下一篇：中国产品Motiff妙多与国际巨头Figma展开竞争企业级AI应用全球首秀

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

夸克浏览器怎么用AI搜索_夸克AI搜索正确提问方式教学

2025-10-25 23:12:01
夸克浏览器AI搜索最新版教学_探索夸克AI搜索的隐藏功能

2025-10-24 20:48:02
玩转夸克浏览器的AI搜索模式_夸克AI搜索新手入门操作指南

2025-10-20 09:50:01
夸克浏览器一键启用AI搜索_带你体验夸克AI搜索的强大之处

2025-10-19 18:42:01
夸克浏览器如何调用AI搜索_夸克AI搜索的快捷指令大全

2025-10-19 11:02:02
夸克浏览器AI搜索入口在哪_一文读懂夸克AI搜索如何激活

2025-10-19 09:25:01
夸克浏览器AI搜索深度体验_夸克AI搜索与其他AI的对比

2025-10-18 22:34:01
手机版夸克浏览器AI搜索设置_移动端夸克AI搜索使用全攻略

2025-10-17 23:58:01
夸克浏览器AI搜索功能详解_几个实用的夸克AI搜索技巧分享

2025-10-17 17:20:02
提升效率的夸克浏览器AI搜索_夸克AI搜索高效使用秘籍

2025-10-17 16:12:05

最新问题

鸿蒙智行最美轿车驾到！享界S9开订2小时订单破3000台 11月7日，鸿蒙智行正式宣布其全新旗舰9系轿车——新款享界S9启动预售，起售价为31.8万元。据官方透露，新车上线仅2小时，订单数量便迅速突破3000台，市场热度可见一斑。设计焕新，寰宇美学重塑豪华风范被冠以“鸿蒙智行最美轿车”之称的新款享界S9，凭借出众的设计语言赢得广泛赞誉。前脸配备璀璨星河大灯，尾部则采用全新星云尾灯，搭配升级的豪华轮毂与智能电子外后视镜，整体造型极具未来感与辨识度。尤为亮眼的是华为百万像素智慧投影大灯，支持“鹿引星途”与“诗意宇宙”两种迎宾动画，不仅提升了夜间行车安全性，

2025-11-07 22:28:00

493

零跑Lafa 5运动轿跑开启预售 10.58万元起配激光雷达 11月7日晚间，零跑汽车正式开启其全新车型Lafa5的预售，预售价区间为10.58万元至13.18万元，并宣布该车将于11月28日正式上市。作为独立于B系列与C系列之外的全新产品线，Lafa5被定义为“高颜值纯电运动两厢轿跑”，聚焦年轻用户群体，强调智能科技与驾驶乐趣的融合。新车提供CLTC工况下515km和605km两种续航版本，共计推出五款配置车型：515Plus（10.58万元）、515Pro（11.58万元）、515Max（12.58万元）、605Pro（12.18万元）以及605Max

2025-11-07 21:40:01

990

业内预测小米汽车2026年产能突破117万辆冲刺120万近日，关于小米汽车2026年产能的预测在业内引发热议。有自媒体发布文章称，随着北京工厂二期、三期以及武汉工厂相继投入运营，小米汽车在2026年的产能有望突破百万辆大关，并向120万辆的目标发起冲击。小米汽车小米汽车工厂据今年年初发布的行业数据显示，小米汽车工厂的产能利用率已逼近200%，远高于行业常规水平。其中，北京一期工厂的设计年产能为15万辆，但通过实施双班生产模式，实际产出能力显著提升。而北京二期工厂同样规划年产能15万辆。若两座工厂均以200%的利用率高效运转，合计年产量可达到60万辆。

2025-11-07 19:02:02

269

人才流向揭示行业变局，为何传统豪华销售选择跳槽？近日，一段关于传统豪华品牌汽车销售人员跳槽的采访视频引发热议。这位销售从自身从业经历出发，向网友讲述了转投国产豪华品牌的背后原因。值得注意的是，近年来，越来越多来自BBA等传统豪华品牌的销售精英纷纷选择加入国产高端新能源阵营。为何传统豪华销售集体“出走”？究竟是什么让这些曾深耕传统豪华品牌多年的金牌销售，毅然放弃熟悉的平台，转向国产豪华品牌的怀抱？其实，细心的消费者早已察觉到市场风向的变化——数据显示，传统豪华车销量正持续下滑，而挂着绿牌的国产豪华车型却不断刷新销量纪录。与此同时，传统豪华品牌的

2025-11-07 18:24:01

226

别克至境世家将采用Momenta R6飞轮大模型配高通芯 11月7日，别克官方发布了旗下全新车型至境世家的智能座舱与智能驾驶系统相关信息。在智能座舱领域，新车将配备高通最新SA8775P芯片，具备高达72TOPS的AI算力，专为提升座舱智能化体验而设计。同时，整车打造了由8块屏幕组成的数字交互空间，包括50英寸全景AR-HUD抬头显示、21英寸4K后舱多媒体智慧屏等，带来沉浸式的互动娱乐体验。别克至境世家该车的8屏布局涵盖10.25英寸全液晶仪表、16.3英寸中控屏、16.3英寸副驾专属屏以及后排21英寸超清大屏，所有屏幕均支持200PPI视网膜级显示

2025-11-07 18:20:18

347

网友改装167度电池纯电车续航破千公里还带家人上路近日，一篇关于个人改装电动车的帖子在车迷圈内引发热议。据悉，一名网友通过自行加装额外电池组，将其车辆总电量提升至167千瓦时，续航能力突破1000公里，并称已多次携带家人出行。此举因存在显著安全隐患，遭到业内专家及广大网友的质疑与批评。据该车主介绍，其原车底盘配备了一块容量为93度的三元锂电池包，随后在后备厢位置额外加装了一块74度电的同类型电池，两组电池采用并联方式连接，使整车电池总容量达到167度。为了进一步优化驾驶表现，他还对车辆进行了多项性能升级，包括更换前后刹车卡钳等部件。面对外界对其

2025-11-07 18:16:11

468

新纪录！小鹏X9超级增程预售订单达纯电版同期近4倍 11月7日，有消息称，小鹏汽车官方发布最新动态：小鹏X9超级增程版预售开启后，订单量迅速攀升，创下X9车型历史同期新高。据小鹏汽车副总裁透露，该车在开启预售仅一小时内，订单数量就达到此前纯电版本同期销量的近4倍。小鹏X9超级增程版于11月6日正式启动预售，提供Max与Ultra两款配置，预售价分别为35万元起和37万元起。此次发布的超级增程版最引人关注的是其卓越的续航表现。新车搭载了全新的鲲鹏超级增程系统，采用“超快充大电池+大油箱”的创新组合，配备63.3kWh专用于增程的磷酸铁锂超快充电池以

2025-11-07 17:37:35

955

讯飞星火X1.5— 科大讯飞推出的深度推理大模型讯飞星火X1.5是什么讯飞星火X1.5是科大讯飞发布的基于全国产算力平台的深度推理大模型。该模型率先在国产算力上攻克了MoE（混合专家）架构的全链路训练效率难题，端到端性能达到国际同类产品效率的93%以上。其在语言理解、文本生成、知识问答、逻辑推理、数学能力和代码能力等六大核心能力上全面对标国际主流大模型，其中数学能力持续保持全球领先。模型支持超过130种语言，整体性能达到GPT-5的95%以上，为世界提供AI发展的“第二选择”，显著提升了中国AI技术的全球竞争力。讯飞星火X1.5的主要功能语言

2025-11-07 16:57:16

263

中国汽车9月英国销量暴增235%！三款车进销量TOP10 近日，乘联分会发布数据显示，2023年9月，中国自主品牌在英国市场销量达到40729辆，同比增长高达235%。这一数字几乎占据了前三季度总销量的三成。今年1至9月，中国品牌在英国累计销售新车142684辆，相较去年同期增长91%。值得注意的是，除英国市场外，澳大利亚、泰国等地也呈现出显著增长态势，成为中国品牌出海的重要增长极。奇瑞Jaecoo7在9月份英国车型销量前十榜单中，中国品牌共有三款车型上榜。其中，奇瑞旗下Jaecoo7表现最为亮眼，售出6489辆，位列第四；比亚迪海豹U紧随其后，销量达

2025-11-07 16:52:01

399

小鹏机器人核心供应商曝光：采用汽车超大型压铸技术 11月7日，一位博主分享了一份详尽的表格，全面梳理了小鹏AI机器人在各个关键模块中的核心供应商及其合作重点。小鹏AI机器人IRON关节驱动与传动部分（每个环节仅列出一家主要供应商）：主要供应商：方正电机合作亮点/供货内容：双方合资创立“方德机器人”，负责提供机器人关节驱动系统，并自主研发了直径仅为12mm的空心杯电机。减速器部分：主要供应商：绿的谐波合作亮点/供货内容：作为全球谐波减速器领域的领军企业，为IRON灵巧手供应行业内最小尺寸的谐波关节，直径仅16mm。感知系统部分：主要供应商：奥比中

2025-11-07 16:31:02

568

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新 English: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

PHP中文网APP: 随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部