0

0

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

王林

王林

发布时间:2024-04-22 16:20:12

|

1255人浏览过

|

来源于机器之心

转载

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。

随着人工智能的发展,语言模型和生成模型获得了大量的成功并且在设计模型的过程中,模型的参数量也越来越大。对于细粒度理解任务,模型参数量也同样在增加。然而目前现有的数据集存在规模和精度的矛盾,例如 SA-1B 数据集中 99.1% 的 mask 都是机器生成的,但没有赋予语义的标签,而其他一些公开数据集也同样存在精度问题并且这些数据集的规模一般都比较小。

近期,字节跳动提出了新一代细粒度理解的数据集,针对当代深度学习模型的设计需求,给总量为 383K 的图片进行了全景分割的人工标注,最后达到了 5.18M 张 mask,是至今最大规模的带人工标签的全景分割理解数据集,命名为 COCONut。该成果已入选 CVPR2024。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

cvpr 2024 | 字节提出新一代数据集coconut,比coco粒度分割更密集

  • 论文链接:https://arxiv.org/abs/2404.08639
  • 代码和数据集链接: https://xdeng7.github.io/coconut.github.io/ 

视频展示了 COCONut 的单张图片的 mask 密度以及语义类别的统计,可以看出,数据集的语义丰富以及 mask 分割粒度精细。该数据集还支持多种理解任务,例如全景分割,实例分割,语义分割,目标检测,语义控制生成和开放词汇分割,在多项任务上,仅通过替换数据集就达到了明显的性能提升。

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

标注方法

通常只采用人工标注是非常昂贵的,这也是目前现存的大多数公开数据集规模上不去的一个重要原因。还有一些数据集直接使用模型生成的标签,但往往这种生成的标签对模型的训练不会有太大的提高,本文也验证了这一点。所以本文提出了一种新颖的标注方式,结合人工的半自动标签生成。既能保证数据标注的精度又能实现人工劳动力的节省成本,同时还能加速标注过程。

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

标注精度对比

研究者把 COCONut 和 COCO 在同一张图上的标注进行对比。从下图的对比可以看到本文提出的标注方法达到了和纯人工用 Photoshop 标注几乎一致的精度,但是在标注速度上提高了 10 倍以上。

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

Poly.ai
Poly.ai

AI电话语音服务助手,接听电话并自动回复客户。

下载
COCONut 数据集详情

和已有的 COCO 数据集相比,数据集各个类别的分布比较相近,但是在每张图的 mask 总量上是超过 COCO 数据集的,尤其是有大量单张图片有超过 100 张 mask 的情况,由此说明了 COCONut 的标注更为精细,粒度分割更密集。

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

实验验证

除了提出一个更好的训练集,研究者还发现现有的验证集不能很好的体现模型性能的提升,因此本文还提出了一个更加富有挑战性的、可以反映模型的提升的测试集,命名为 COCONut-val. 从下表可以看到,仅替换数据集,更高精度的训练集可以带来模型很大的提升,例如在全景分割上达到超过 4 个点的 PQ。然而当训练集的规模增加了之后,可以发现,用现有的测试集做测试并不能反映出模型的提升,而 COCONut-val 则能反映出模型在增加了训练集数据量之后仍然有明显的提升。

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

下图为验证集语义类别和 mask 密度的对比,可以看出新提出的验证集更具有挑战性,更能反映模型的提升。

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

了解更多实验结果可参考原论文,团队后续将在 GitHub 主页提供数据集和相应的模型公开下载。

字节跳动智能创作团队

智能创作团队是字节跳动 AI & 多媒体技术团队,覆盖了计算机视觉、音视频编辑、特效处理等技术领域,借助公司丰富的业务场景、基础设施资源和技术协作氛围,实现了前沿算法 - 工程系统 - 产品全链路的闭环,旨在以多种形式为公司内部各业务提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。

目前,智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。更多大模型算法相关岗位开放中。

相关专题

更多
页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

395

2023.08.14

人工智能在生活中的应用
人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容,供大家免费下载体验。

406

2023.08.17

人工智能的基本概念是什么
人工智能的基本概念是什么

人工智能的英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

298

2024.01.09

人工智能不能取代人类的原因是什么
人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

627

2024.09.10

Python 人工智能
Python 人工智能

本专题聚焦 Python 在人工智能与机器学习领域的核心应用,系统讲解数据预处理、特征工程、监督与无监督学习、模型训练与评估、超参数调优等关键知识。通过实战案例(如房价预测、图像分类、文本情感分析),帮助学习者全面掌握 Python 机器学习模型的构建与实战能力。

32

2025.10.21

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1861

2024.08.16

photoshop cs5序列号
photoshop cs5序列号

Photoshop序列号是指Adobe公司为其图像编辑软件Photoshop提供的一种许可证认证方式。每个购买正版Photoshop软件的用户都会得到一个独特的序列号,用于激活软件并证明其合法性。通过输入正确的序列号,用户可以解锁软件的所有功能,并享受Adobe提供的更新和技术支持。那么有没有什么永久免费的序列号呢,php中文网就给大家带来了photoshop cs5序列号序列号大全,同时还为大家带来了ps的相关课程,欢迎大家前来下载学

472

2023.07.06

ps暂存盘已满怎么办
ps暂存盘已满怎么办

ps暂存盘已满解决方法:1、更改暂存盘位置;2、清理缓存和历史记录;3、增加暂存盘空间。想了解更详细的解决方法,可以访问下面的文章。

400

2023.12.07

Golang 分布式缓存与高可用架构
Golang 分布式缓存与高可用架构

本专题系统讲解 Golang 在分布式缓存与高可用系统中的应用,涵盖缓存设计原理、Redis/Etcd集成、数据一致性与过期策略、分布式锁、缓存穿透/雪崩/击穿解决方案,以及高可用架构设计。通过实战案例,帮助开发者掌握 如何使用 Go 构建稳定、高性能的分布式缓存系统,提升大型系统的响应速度与可靠性。

6

2026.01.09

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 0.6万人学习

Node.js 教程
Node.js 教程

共57课时 | 8.2万人学习

CSS3 教程
CSS3 教程

共18课时 | 4.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号