讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

首页 > 科技周边 > 人工智能 > 正文

北大彭宇新教授团队开源细粒度多模态大模型Finedefics

霞舞

发布： 2025-02-17 20:40:30

原创

571人浏览过

北京大学彭宇新教授团队在细粒度多模态大模型领域取得突破性进展，其研究成果已被iclr 2025接收并开源。该团队研发的finedefics模型显著提升了多模态大模型的细粒度视觉识别能力，在六个权威数据集上的平均准确率达到76.84%，超越了现有模型。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

挑战与突破：细粒度视觉识别的瓶颈

现有多模态大模型在通用视觉任务中表现出色，但在细粒度视觉识别方面存在不足。细粒度识别要求区分同一大类下的细微差别，例如区分不同鸟类、汽车品牌和型号等。这主要是因为缺乏足够的细粒度标注数据，导致模型难以学习到细微的视觉特征。

Finedefics模型正是为了解决这一难题而生。该团队深入分析了多模态大模型在细粒度识别中所需的三个关键能力：对象信息提取、类别知识储备和对象-类别对齐。研究发现，对象与类别的错位匹配是制约模型性能的关键。

Finedefics：巧妙的对齐策略

Finedefics模型通过两阶段训练策略巧妙地解决了对象-类别对齐问题：

属性描述构建: 利用大语言模型挖掘细粒度属性，例如描述鸟类的羽毛颜色、形状等，并将其与图像特征结合，生成更精细的图像描述。
属性增强对齐: 通过对比学习，将图像特征、属性描述和类别信息进行对齐，强化模型学习细微视觉特征与类别标签之间的对应关系。这包括对象-属性、属性-类别和类别-类别三个层次的对比学习。此外，模型还进行了以识别为中心的指令微调，进一步提升了模型的识别准确性。

Playground AI
AI图片生成和修图

108

查看详情

显著成果与未来展望

Finedefics在六个权威数据集上取得了显著成果，平均准确率达到76.84%，相比于Idefics2模型提升了10.89%。这表明Finedefics有效地提升了多模态大模型的细粒度视觉识别能力。

资源链接:

论文标题: Analyzing and Boosting the Power of Fine-Grained Visual Recognition for Multi-modal Large Language Models
论文链接: https://www.php.cn/link/352d47cf1a528e7f85aca7ef55669802
开源代码: https://www.php.cn/link/78785f4debd23c24e93850db2f58b88e
模型地址: https://www.php.cn/link/fbb25c1fc3c9ad12a80d06b6218932d8
实验室网址: https://www.php.cn/link/bef5b4d93c3ae02ace550506a9a936de

Finedefics的成功为多模态大模型在细粒度视觉识别领域的应用提供了新的方向，也为后续研究提供了宝贵的经验。该团队的研究成果为推动细粒度视觉识别技术的发展做出了重要贡献。

以上就是北大彭宇新教授团队开源细粒度多模态大模型Finedefics的详细内容，更多请关注php中文网其它相关文章！

相关标签：

git ai 2025 for 对象 github boosting https

大家都在看：

怎么用ai总结会议纪要 AI语音转文字与内容提炼【核心】怎么用ai写产品测评 AI产品优缺点分析与使用体验报告【实操】 DeepSeek如何写法律文书_DeepSeek辅助起草合同与法律意见书【专业】怎么用ai做数据可视化 AI报表图表一键生成技巧【核心】 DeepSeek怎么写产品需求文档_DeepSeek辅助PRD撰写与梳理【产品经理】

最佳 Windows 性能的顶级免费优化软件

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移，垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是，许多工具可以让 Windows 保持平稳运行。

来源：php中文网

上一篇：DeepSeek高管发生变更，新增互联网信息服务下一篇：三星显示、LG显示争夺现代摩比斯可卷曲OLED订单

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

美光：AI需求高居不下预计营收大幅增长

2025-12-18 12:45:02
《怪物猎人：荒野》更新优化效果实测！帧率变化不大但显卡负载降低

2025-12-18 12:46:02
苹果发布开源 AI 模型 SHARP，将单张 2D 照片快速变成 3D 场景

2025-12-18 12:57:02
《霍格沃茨之遗》销量突破四千万份成绩惊人

2025-12-18 13:18:07
《暗黑破坏神4：憎恨之王》剧情回顾视频

2025-12-18 13:22:10
内存价格失控！乐子随之而来内存条塞金属块造假

2025-12-18 13:27:07
常玩游戏能防老年痴呆！全国首张游戏处方在浙江开出

2025-12-18 13:31:22
iOS 26.3首个公测版发布：苹果、安卓正式互通可互传数据

2025-12-18 13:39:07
CoSky v5.2.0 已经发布，基于 Redis 的服务治理平台

2025-12-18 13:44:13
3D类银河恶魔城游戏《少女与学院城》上架Steam 现已开放试玩

2025-12-18 13:50:03

最新问题

怎么用ai设计问卷 AI市场调研问卷生成与数据分析【方法】可借助AI工具高效完成市场调研问卷创建与数据分析：一、用AI问卷生成工具自动构建初稿；二、通过大模型微调定制专业问卷；三、利用AI插件实时优化可用性；四、接入AI分析引擎处理回收数据；五、通过AI对话式仪表盘动态追问洞察。

2025-12-18 23:43:19

582

ChatGPT角色扮演高级玩法教程 ChatGPT创意互动技巧要实现高拟真度角色扮演，需四步：一、设定含职业、性格、语言、知识边界的强约束身份；二、嵌入触发式人格开关机制；三、构建感官记忆锚点链；四、部署否定式反幻觉护栏。

2025-12-18 23:43:02

256

有言数字人怎样优化口型同步效果_有言数字人口型匹配精度提升技巧【精调】口型与语音不同步等问题可通过五种方法精调：一、校准音频质量；二、微调唇形参数；三、分段注入并设锚点；四、导入自定义音素-口型映射表；五、启用文本-语音双通道驱动验证。

2025-12-18 23:42:07

537

DeepSeek多语言代码转换教程 DeepSeek跨平台开发技巧需掌握DeepSeek多语言映射与跨平台适配：一、配置基础环境，安装transformers与torch，下载模型权重并验证tokenizer；二、构建结构化提示模板，定义变量与指令前缀，按语言对定制规则；三、用pipeline批量转换，确保确定性输出；四、跨平台适配路径、设备与缓存；五、集成VSCode插件实现实时转换。

2025-12-18 23:42:07

970

Stable Diffusion ADetailer怎么用 ADetailer插件修复脸部崩坏教程【实操】 ADetailer插件可自动检测并重绘人脸区域以提升StableDiffusion人像质量。需安装插件、下载YOLOv8-face与SAM模型，配置检测提示词与去重参数，并可结合ControlNet增强结构准确性。

2025-12-18 23:41:16

429

豆包AI手机如何开启AI驾驶模式联动_豆包AI手机开启AI驾驶模式联动操作攻略【方案集】豆包AI手机助手无法控制车辆行驶，仅能通过无障碍服务、地图联动、微信打车闭环、蓝牙消息播报、桌面小组件等方式辅助完成导航、音乐、通话等非驾驶任务。

2025-12-18 23:41:02

726

怎么用ai写歌词 AI流行歌曲与说唱韵脚创作【指南】掌握AI歌词生成需五步：一设风格结构指令，二嵌专业韵脚库，三分层迭代生成，四设语义防火墙，五标定节奏与Flow。

2025-12-18 23:41:02

259

豆包AI怎么生成真人风格照片豆包AI绘画实用指南豆包AI生成真人照片需四级嵌套提示词、启用超写实协议、分层迭代重绘、垫图法强化五官、规避五类失效诱因。

2025-12-18 23:40:09

368

murfai如何让旁白与画面节奏一致_MurfAI旁白节奏同步调整方法【校准】旁白与画面节奏不同步时，可通过四种方法校准：一、时间轴标记+分段配音；二、启用“SayItMyWay”语音演绎映射；三、手动插入时间码锚点绑定语音事件；四、结合Audacity反向校准节奏锚点。

2025-12-18 23:40:02

611

ChatGPT如何帮你快速阅读文献 ChatGPT学术研究指南 ChatGPT可高效辅助学术文献处理：通过粘贴文本执行核心提炼、分段释义术语、六要素速读、批判性提问及跨文献对比五类指令，精准提取信息并深化理解。

2025-12-18 23:39:19

187

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部