讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

大规模模型已经可以为图像做标注，只需简单对话！清华&NUS的研究成果

WBOY

发布时间：2024-01-05 12:56:09

|

887人浏览过

|

来源于51CTO.COM

转载

多模态大模型集成了检测分割模块后，抠图变得更简单了！

我们的模型可以通过自然语言描述来快速标注要寻找的物体，并提供文字解释，让您轻松完成任务。

新加坡国立大学NExT++实验室与清华刘知远团队合作开发的全新多模态大模型，为我们提供了强大的支持。这个模型的背后是经过精心打造的，它能够在解谜过程中为玩家们提供全面的帮助和指导。它结合了多种模态的信息，为玩家们呈现出全新的解谜方法和策略。这个模型的应用将为玩家们

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

大模型都会标注图像了，简单对话即可！来自清华&NUS

随着GPT-4v的推出，多模态领域迎来了一系列新模型，如LLaVA、BLIP-2等等。这些模型的出现在提升了多模态任务的性能和效果方面做出了巨大贡献。

为了进一步提升多模态大模型的区域理解能力，研究团队开发了一个名为NExT-Chat的多模态模型。该模型具备同时进行对话和检测、分割的能力。

大模型都会标注图像了，简单对话即可！来自清华&NUS

NExT-Chat的最大亮点是其多模态模型中引入了位置输入和输出的能力。这一特点使得NExT-Chat在交互中能够更加准确地理解和回应用户的需求。通过位置输入，NExT-Chat可以根据用户所在的地理位置提供相关的信息和建议，从而提升用户体验。而通过位置输出，NExT-Chat可以将特定地理位置的相关信息传达给用户，帮助他们更好

其中，位置输入能力是指根据指定的区域回答问题，而位置输出能力则是指定位对话中提及的物体。这两种能力在解谜游戏中非常重要。

大模型都会标注图像了，简单对话即可！来自清华&NUS

即使是复杂的定位问题，也能迎刃而解：

大模型都会标注图像了，简单对话即可！来自清华&NUS

除了物体定位，NExT-Chat还可以对图片或其中的某个部分进行描述：

大模型都会标注图像了，简单对话即可！来自清华&NUS
分析完图像的内容之后，NExT-Chat可以利用得到的信息进行推理：

大模型都会标注图像了，简单对话即可！来自清华&NUS

为了准确评估NExT-Chat的表现，研究团队在多个任务数据集上进行了测试。

在多个数据集上取得SOTA

作者首先展示了NExT-Chat在指代表达式分割（RES）任务上的实验结果。

虽然仅仅用了极少量的分割数据，NExT-Chat却展现出了良好的指代分割能力，甚至打败了一系列有监督模型（如MCN，VLT等）和用了5倍以上分割掩模标注的LISA方法。

大模型都会标注图像了，简单对话即可！来自清华&NUS

△RES任务上NExT-Chat结果

接着，研究团队展示了NExT-Chat在REC任务上的实验结果。

如下表所示，相比于相当一系列的有监督方法(如UNITER)，NExT-Chat都可以取得更优的效果。

一个有意思的发现是NExT-Chat比使用了类似框训练数据的Shikra效果要稍差一些。

作者猜测，这是由于pix2emb方法中LM loss和detection loss更难以平衡，以及Shikra更贴近现有的纯文本大模型的预训练形式导致的。

大模型都会标注图像了，简单对话即可！来自清华&NUS

△REC任务上NExT-Chat结果

在图像幻觉任务上，如表3所示，NExT-Chat可以在Random和Popular数据集上取得最优的准确率。

大模型都会标注图像了，简单对话即可！来自清华&NUS

△POPE数据集上NExT-Chat结果

在区域描述任务上，NExT-Chat也能取得最优的CIDEr表现，且在该指标打败了4-shot情况下的Kosmos-2。

大模型都会标注图像了，简单对话即可！来自清华&NUS

△RefCOCOg数据集上NExT-Chat结果

那么，NExT-Chat背后都采用了哪些方法呢？

Pi智能演示文档

Pi智能演示文档

领先的AI PPT生成工具

下载

提出图像编码新方式

传统方法的缺陷

传统的模型主要通过pix2seq的方式进行LLM相关的位置建模。

比如Kosmos-2将图像划分成32x32的区块，用每个区块的id来代表点的坐标；Shikra将物体框的坐标转化为纯文本的形式从而使得LLM可以理解坐标。

但使用pix2seq方法的模型输出主要局限在框和点这样的简单格式，而很难泛化到其他更密集的位置表示格式，比如segmentation mask。

为了解决这个问题，本文提出了一种全新的基于embedding的位置建模方式pix2emb。

pix2emb方法

不同于pix2seq，pix2emb所有的位置信息都通过对应的encoder和decoder进行编码和解码，而不是借助LLM本身的文字预测头。

大模型都会标注图像了，简单对话即可！来自清华&NUS

△pix2emb方法简单示例

如上图所示，位置输入被对应的encoder编码为位置embedding，而输出的位置embedding则通过Box Decoder和Mask Decoder转化为框和掩模。

这样做带来了两个好处：

模型的输出格式可以非常方便的扩展到更多复杂形式，比如segmentation mask。
模型可以非常容易的定位任务中已有的实践方式，比如本文的detection loss采用L1 Loss和GIoU Loss (pix2seq则只能使用文本生成loss)，本文的mask decoder借助了已有的SAM来做初始化。

通过将pix2seq与pix2emb结合，作者训练了全新的NExT-Chat模型。

NExT-Chat模型

大模型都会标注图像了，简单对话即可！来自清华&NUS

△NExT-Chat模型架构

NExT-Chat整体采用了LLaVA架构，即通过Image Encoder来编码图像信息并输入LLM进行理解，并在此基础上添加了对应的Box Encoder和两种位置输出的Decoder。

为了解决LLM不知道何时该使用语言的LM head还是位置解码器的问题，NExT-Chat额外引入一个全新的token类型来标识位置信息。

如果模型输出了，则该token的embedding会被送入对应的位置解码器进行解码而不是语言解码器。

此外，为了维持输入阶段和输出阶段位置信息的一致性，NExT-Chat额外引入了一个对齐约束：

大模型都会标注图像了，简单对话即可！来自清华&NUS

△位置输入、输出约束

如上图所示，box和位置embedding会被分别通过解码器、编码器或解码器编码器组合，并要求前后不发生变化。

作者发现该方法可以极大程度促进位置输入能力的收敛。

而NExT-Chat的模型训练主要包括3个阶段：

第一阶段：训练模型基本的框输入输出基本能力。NExT-Chat采用Flickr-30K，RefCOCO，VisualGenome等包含框输入输出的数据集进行预训练。训练过程中，LLM参数会被全部训练。
第二阶段：调整LLM的指令遵循能力。通过一些Shikra-RD，LLaVA-instruct之类的指令微调数据使得模型可以更好的响应人类的要求，输出更人性化的结果。
第三阶段：赋予NExT-Chat模型分割能力。通过以上两阶段训练，模型已经有了很好的位置建模能力。作者进一步将这种能力扩展到mask输出上。实验发现，通过使用极少量的mask标注数据和训练时间(大约3小时)，NExT-Chat可以快速的拥有良好的分割能力。

这样的训练流程的好处在于：检测框数据丰富且训练开销更小。

NExT-Chat通过在充沛的检测框数据训练基本的位置建模能力，之后可以快速的扩展到难度更大且标注更稀缺的分割任务上。

相关文章

文心一言怎么制作PPT大纲快速生成演示文稿逻辑框架教程

ChatGPT官方网页端入口导航 ChatGPT官网页面直达方法

Gemini怎样写对比型提示词_Gemini对比提示词编写【步骤】

批改网AI检测工具如何查看语法错误_批改网AI检测工具语法错误定位与修正建议【攻略】

讯飞星火怎样一键生成电商详情页_讯飞星火详情页生成与卖点排序【技巧】

相关标签:

ai 架构 Token gpt embedding

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：发掘智慧互通之门，荣耀MagicOS 8.0开创意图识别人机交互新模式下一篇：提升Pytorch关键点，改进优化器！

作者最新文章

提升效率的夸克浏览器AI搜索_夸克AI搜索高效使用秘籍

2025-10-17 16:12

夸克浏览器AI搜索功能详解_几个实用的夸克AI搜索技巧分享

2025-10-17 17:20

手机版夸克浏览器AI搜索设置_移动端夸克AI搜索使用全攻略

2025-10-17 23:58

夸克浏览器AI搜索深度体验_夸克AI搜索与其他AI的对比

2025-10-18 22:34

夸克浏览器AI搜索入口在哪_一文读懂夸克AI搜索如何激活

2025-10-19 09:25

夸克浏览器如何调用AI搜索_夸克AI搜索的快捷指令大全

2025-10-19 11:02

夸克浏览器一键启用AI搜索_带你体验夸克AI搜索的强大之处

2025-10-19 18:42

玩转夸克浏览器的AI搜索模式_夸克AI搜索新手入门操作指南

2025-10-20 09:50

夸克浏览器AI搜索最新版教学_探索夸克AI搜索的隐藏功能

2025-10-24 20:48

夸克浏览器怎么用AI搜索_夸克AI搜索正确提问方式教学

2025-10-25 23:12

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

更多

登录token无效

登录token无效

登录token无效解决方法：1、检查token的有效期限，如果token已经过期，需要重新获取一个新的token；2、检查token的签名，如果签名不正确，需要重新获取一个新的token；3、检查密钥的正确性，如果密钥不正确，需要重新获取一个新的token；4、使用HTTPS协议传输token，建议使用HTTPS协议进行传输；5、使用双因素认证，双因素认证可以提高账户的安全性。

6045

2023.09.14

登录token无效怎么办

登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容，供大家免费下载体验。

782

2023.09.14

token怎么获取

token怎么获取

获取token值的方法：1、小程序调用“wx.login()”获取临时登录凭证code，并回传到开发者服务器；2、开发者服务器以code换取，用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容，可以阅读本专题下面的文章。

1047

2023.12.21

token什么意思

token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易，用来购买或出售特定的虚拟货币，也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1091

2024.03.01

php源码安装教程大全

php源码安装教程大全

本专题整合了php源码安装教程，阅读专题下面的文章了解更多详细内容。

7

2025.12.31

php网站源码教程大全

php网站源码教程大全

本专题整合了php网站源码相关教程，阅读专题下面的文章了解更多详细内容。

4

2025.12.31

视频文件格式

视频文件格式

本专题整合了视频文件格式相关内容，阅读专题下面的文章了解更多详细内容。

7

2025.12.31

不受国内限制的浏览器大全

不受国内限制的浏览器大全

想找真正自由、无限制的上网体验？本合集精选2025年最开放、隐私强、访问无阻的浏览器App，涵盖Tor、Brave、Via、X浏览器、Mullvad等高自由度工具。支持自定义搜索引擎、广告拦截、隐身模式及全球网站无障碍访问，部分更具备防追踪、去谷歌化、双内核切换等高级功能。无论日常浏览、隐私保护还是突破地域限制，总有一款适合你！

7

2025.12.31

出现404解决方法大全

出现404解决方法大全

本专题整合了404错误解决方法大全，阅读专题下面的文章了解更多详细内容。

42

2025.12.31

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

Django 教程

Django 教程

共28课时 | 2.6万人学习

Go 教程

Go 教程

共32课时 | 3.1万人学习

TypeScript 教程

TypeScript 教程

共19课时 | 1.9万人学习

最新文章

更多

怎么用ai写请假条 AI各种理由的正式请假申请模板【实操】

ChatGPT官方主页入口指南 ChatGPT网页版快速登录入口

通义万相批量生成商品图怎么用_通义万相批量生成商品图使用方法详细指南【教程】

批改网AI检测工具如何筛选高频错误_批改网AI检测工具错误统计与高频项查看【方法】

应届生求职攻略：如何用AI弥补工具打造一份HR无法拒绝的简历

DeepSeek 在非英语语种代码注释生成的表现

扣子AI怎么实现多语言交互_扣子AI多语言切换与翻译设置【教程】

如何用文心一言分析PDF文档批量提取关键信息使用方法

千问如何写旅游攻略提示词_千问旅游提示词路线与亮点【攻略】

tofai怎么添加文字内容 tofai文字编辑输入方法【步骤】

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部