0

0

轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

WBOY

WBOY

发布时间:2024-04-23 08:04:08

|

1020人浏览过

|

来源于ZAKER

转载

一个可以自动分析 pdf、网页、海报、excel 图表内容的大模型,对于打工人来说简直不要太方便。

上海 AI Lab,香港中文大学等研究机构提出的 InternLM-XComposer2-4KHD(简写为 IXC2-4KHD)模型让这成为了现实。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

相比于其他多模态大模型不超过 1500x1500 的分辨率限制,该工作将多模态大模型的最大输入图像提升到超过 4K (3840 x1600)分辨率,并支持任意长宽比和 336 像素~4K 动态分辨率变化。

发布三天,该模型就登顶 Hugging Face 视觉问答模型热度榜单第一。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

轻松拿捏 4K 图像理解

先来看效果 ~

研究人员输入论文(ShareGPT4V: Improving Large Multi-Modal Models with Better Captions)的首页截图(分辨率为 2550x3300),并询问论文哪个模型在 MMBench 上的性能最高。

需要注意的是,该信息在输入截图的正文文字部分并未提及,仅仅出现在一个相当复杂的雷达图中。面对这么刁钻的问题,IXC2-4KHD 成功理解了雷达图中的信息,正确回答问题。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

面对更加极端分辨率的图像输入(816 x 5133),IXC2-4KHD 轻松理解图像包括 7 个部分,并准确说明了每个部分包含的文字信息内容。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

随后,研究人员还在 16 项多模态大模型评测指标上全面测试了 IXC2-4KHD 的能力,其中 5 项评测(DocVQA、ChartQA、InfographicVQA、TextVQA、OCRBench)关注模型的高分辨率图像理解能力。

仅仅使用 7B 参数量,IXC2-4KHD 在其中 10 项评测取得了媲美甚至超越 GPT4V 和 Gemini Pro 的结果,展现了不局限于高分辨率图像理解,而是对各种任务和场景的泛用能力。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

△仅 7B 参数量的 IXC2-4KHD 性能媲美 GPT-4V 和 Gemini-Pro 如何实现 4K 动态分辨率?

为了实现 4K 动态分辨率的目标,IXC2-4KHD 包括了三个主要设计:

(1)动态分辨率训练:

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

△4K 分辨率图像处理策略

在 IXC2-4KHD 的框架中,输入图像在保持长宽比的情况下,被随机放大到介于输入面积和最大面积(不超过 55x336x336,等价于 3840 x1617 分辨率)的一个中间尺寸。

随后,图像被自动切块成多个 336x336 的区域,分别抽取视觉特征。这种动态分辨率的训练策略可以让模型适应任意分辨率的视觉输入,同时也弥补了高分辨率训练数据不足的问题。

实验表明,随着动态分辨率上限的增加,模型在高分辨率图像理解任务(InfographicVQA、DocVQA、TextVQA)上实现了稳定的性能提升,并且在 4K 分辨率仍然未达到上界,展现了更高分辨率进一步扩展的潜力。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

DreamStudio
DreamStudio

SD兄弟产品!AI 图像生成器

下载

(2)添加切块布局信息:

为了使模型能够适应变化丰富的动态分辨率,研究人员发现需要将切块布局信息作为额外的输入。为了实现这个目的,研究人员采取了一种简单的策略:一个特殊的‘换行’(’ n ’)令牌被插入到每一行的切块之后,用于告知模型切块的布局。实验表明,添加切块布局信息,对于变化幅度比较小的动态分辨率训练(HD9 代表切块区域个数不超过 9)影响不大,而对于动态 4K 分辨率训练则可以带来显著的性能提升。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

(3)推理阶段扩展分辨率

研究人员还发现,使用动态分辨率的模型,可以在推理阶段通过增加最大切块上限直接扩展分辨率,并且带来额外的性能增益。例如将 HD9(最多 9 块)的训练模型直接使用 HD16 进行测试,可以在 InfographicVQA 上观察到高达 8% 的性能提升。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

IXC2-4KHD 将多模态大模型支持的分辨率提升到了 4K 的水平,研究人员表示目前这种通过增加切块个数支持更大图像输入的策略遇到了计算代价和显存的瓶颈,因此他们计划提出更加高效的策略在未来实现更高分辨率的支持。

论文链接:

https://arxiv.org/pdf/2404.06512.pdf

项目链接:

https://github.com/InternLM/InternLM-XComposer

— 完 —

投稿请发邮件到:

ai@qbitai.com

标题注明,告诉我们:

你是谁,从哪来,投稿内容

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

相关专题

更多
http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1902

2024.08.16

excel对比两列数据异同
excel对比两列数据异同

Excel作为数据的小型载体,在日常工作中经常会遇到需要核对两列数据的情况,本专题为大家提供excel对比两列数据异同相关的文章,大家可以免费体验。

1370

2023.07.25

excel重复项筛选标色
excel重复项筛选标色

excel的重复项筛选标色功能使我们能够快速找到和处理数据中的重复值。本专题为大家提供excel重复项筛选标色的相关的文章、下载、课程内容,供大家免费下载体验。

402

2023.07.31

excel复制表格怎么复制出来和原来一样大
excel复制表格怎么复制出来和原来一样大

本专题为大家带来excel复制表格怎么复制出来和原来一样大相关文章,帮助大家解决问题。

552

2023.08.02

excel表格斜线一分为二
excel表格斜线一分为二

在Excel表格中,我们可以使用斜线将单元格一分为二。本专题为大家带来excel表格斜线一分为二怎么弄的相关文章,希望可以帮到大家。

1241

2023.08.02

excel斜线表头一分为二
excel斜线表头一分为二

excel斜线表头一分为二的方法有使用合并单元格功能方法、使用文本框功能方法、使用自定义格式方法。本专题为大家提供excel斜线表头一分为二相关的各种文章、以及下载和课程。

363

2023.08.02

绝对引用的输入方法
绝对引用的输入方法

绝对引用允许在公式中引用一个固定的单元格,而不会随着公式的复制和粘贴而改变引用的单元格。本专题为大家提供绝对引用相关内容的文章,大家可以免费体验。

4517

2023.08.09

java导出excel
java导出excel

在Java中,我们可以使用Apache POI库来导出Excel文件。本专题提供java导出excel的相关文章,大家可以免费体验。

403

2023.08.18

c++主流开发框架汇总
c++主流开发框架汇总

本专题整合了c++开发框架推荐,阅读专题下面的文章了解更多详细内容。

25

2026.01.09

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
AngularJS教程
AngularJS教程

共24课时 | 2.5万人学习

【李炎恢】ThinkPHP8.x 后端框架课程
【李炎恢】ThinkPHP8.x 后端框架课程

共50课时 | 4.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号