中山大学HCP实验室新突破：用因果范式再升级多模态大模型

王林

发布时间：2023-04-12 20:49:02

1944人浏览过

来源于51CTO.COM

转载

中山大学人机物智能融合实验室（HCP）在 AIGC 及多模态大模型方面成果丰硕，在近期的 AAAI 2023、CVPR 2023 先后入选了十余篇，位列全球研究机构的第一梯队。

其中一个工作实现了用因果模型来显著提升多模态大模型在调优中的可控及泛化性——《Masked Images Are Counterfactual Samples for Robust Fine-tuning》。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

链接：https://arxiv.org/abs/2303.03052

使用预训练的大规模模型在下游任务上进行微调是当前流行的深度学习范式。尤其是近期预训练语言大模型 ChatGPT 的出色表现，使得这套技术范式得到了广泛的认可。经过海量数据的预训练，这些预训练大模型能够适应现实环境中多变的数据分布，因而在通用场景中表现出较强的鲁棒性。

然而，当用下游场景数据对预训练大模型进行微调以适应特定应用任务时，绝大多数情况下这些数据具有单一性。以这些数据对预训练大模型进行微调训练，往往会降低模型鲁棒性，使基于预训练大模型的应用变得困难。特别是在视觉模型方面，由于图像的多样性远远超过语言，下游微调训练导致视觉相关的预训练大模型鲁棒性下降的问题尤其突出。

之前的研究方法通常通过模型集成等方式在模型参数层面隐式地保持微调后预训练模型的鲁棒性。但是，这些工作并没有分析微调导致模型分布外性能下降的本质原因，也没有明确解决上述大模型微调后鲁棒性下降的问题。

该工作以跨模态大模型为基础，从因果关系的角度分析了预训练大模型鲁棒性损失的本质原因，并据此提出了一种能够显著提升模型鲁棒性的微调训练方法。该方法使得模型在适应下游任务的同时，仍能保持较强的鲁棒性，更好地满足实际应用需求。

以 OpenAI 在 2021 年发布的跨模态预训练大模型 CLIP（Contrastive Language–Image Pre-training）为例：CLIP 是一种基于对比的图片 - 文本联合学习的跨模态预训练大模型，是 Stable Diffusion 等生成式模型的基础。该模型通过包含约 4 亿个图像 - 文本对的海量多源数据进行训练，在一定程度上学习到了一些对于分布变化鲁棒的因果关系。

然而，当用特征单一的下游数据对 CLIP 进行微调时，容易破坏模型学习到的这些因果知识，因为训练图像的非语义表征和语义表征是高度纠缠的。例如，将 CLIP 模型迁移应用到 “农场” 这一下游场景时，许多训练图像中的 “奶牛” 都在草地上。此时，微调训练可能使模型学习到依赖草地这一非 “奶牛” 的语义表征来预测图像的语义。然而，这种相关性并不一定是真实的，例如 “奶牛” 也可能出现在公路上。因此，模型在进行微调训练后，其鲁棒性会降低，应用时的输出结果可能变得极不稳定，缺乏可控性。

基于团队多年的大模型搭建和训练经验，该工作从因果关系的角度重新审视了预训练模型微调导致鲁棒性下降的问题。基于因果建模与分析，该工作提出了一种基于图像掩码构造反事实样本，并通过掩码图像学习提高模型鲁棒性的微调训练方法。

具体而言，为了打破下游训练图像中的假性相关，该工作提出了一种基于类激活图（CAM）的方法掩盖并替换图像特定区域的内容，用以操纵图像的非语义表征或语义表征，产生反事实样本。微调模型可以通过蒸馏的方式学习模仿预训练模型对这些反事实样本的表征，从而更好地解耦语义因素与非语义因素的影响，提高对下游领域中分布偏移的适应能力。

SlidesAI

使用SlidesAI的AI在几秒钟内创建演示文稿幻灯片

下载

实验表明，该方法能够显著提高预训练模型在下游任务中的性能，同时在提升鲁棒性方面相较于现有大模型微调训练方法有显著优势。

该工作的重要意义是在一定程度上打开了预训练大模型从深度学习范式中继承的 “黑盒子”，是解决大模型的 “可解释性” 和 “可控性” 问题的重要探索，让我们离切实可享受的由预训练大模型带领的生产力提升越来越近。

中山大学 HCP 团队自 Transformer 机制问世起，从事大模型技术范式研究多年，致力于提升大模型的训练效率和引入因果模型来解决大模型的 “可控性” 问题。团队多年来自主研究开发了多个视觉、语言、语音和跨模态的预训练大模型，与华为诺亚方舟实验室联合开发的 “悟空” 跨模态大模型 (链接：https://arxiv.org/abs/2202.06767) 即是其中的典型案例。

团队简介

中山大学人机物智能融合实验室 (HCP Lab) 在多模态认知计算、机器人与嵌入式系统、元宇宙与数字人、可控内容生成等领域开展体系化研究，并深入应用场景打造产品原型，输出大量原创技术及孵化创业团队。实验室由 IAPR Fellow 林倞教授于 2010 年创办，获得中国图像图形学会科技一等奖、吴文俊自然科学奖、省级自然科学一等奖等荣誉；培养了梁小丹、王可泽等国家级青年人才。

批改网AI检测工具怎样开启实时检测_批改网AI检测工具实时检测开启与延迟设置【指南】

百度AI搜索怎样设置搜索偏好_百度AI搜索偏好设置与个性化推荐【技巧】

如何通过 DeepSeek 优化分布式存储系统架构

DART：AI驱动的项目管理软件，提升团队效率

一键改变发型：Gemini AI 助你轻松打造时尚造型

相关专题

ChatGPT注册

ChatGPT注册方法：1、访问OpenAI的官方网站，进入注册页面；2、完成注册后收到一份邮件，打开后点击验证账号；3、选择一个适合您需求的订阅计划；4、获得访问ChatGPT的权限即可。

523

2023.09.12

国内免费ChatGPT大全

ChatGPT是一种基于深度学习技术的自然语言处理模型，由OpenAI开发。它是GPT的一个变体，专门设计用于生成上下文相关的文本回复。ChatGPT被训练成一个聊天机器人，可以与用户进行对话交互。更多关于ChatGPT的文章详情请查看本专题，希望对大家能有所帮助。

565

2023.10.25

手机安装chatgpt的方法

手机安装chatgpt的方法：1、在ChatGTP官网或手机商店上下载ChatGTP软件；2、打开后在设置界面中，选择语言为中文；3、在对局界面中，选择人机对局并设置中文相谱；4、开始后在聊天窗口中输入指令，即可与软件进行交互。想了解更多chatgpt的相关内容，可以阅读本专题下面的文章。

2728

2024.03.05

chatgpt国内可不可以使用

chatgpt在国内可以使用，但不能注册，港澳也不行，用户想要注册的话，可以使用国外的手机号进行注册，注意注册过程中要将网络环境切换成国外ip。想了解更多chatgpt的相关内容，可以阅读本专题下面的文章。

938

2024.03.05

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1665

2024.08.16

linux是嵌入式系统吗

linux是嵌入式系统，是一种用途广泛的系统软件，其特点是：1、linux系统是完全开放、免费的；2、linux操作系统的显著优势是多用户和多任务，保证了多个用户使用互不影响；3、设备是独立的，只要安装驱动程序，任何用户都可以对任意设备进行使用和操作。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

170

2024.02.23