idea研究院发布dino-x:一款突破性通用视觉大模型,实现开放世界目标检测
传统的小型计算机视觉模型难以应对碎片化、多变的长尾需求,限制了其应用规模。而基于Transformer架构的DINO系列视觉大模型,则另辟蹊径,致力于打造兼具精准度、通用性和泛化能力的解决方案。 IDEA研究院于11月22日在深圳举办的IDEA大会上,正式发布了该系列的最新成果——DINO-X通用视觉大模型。
DINO-X实现了真正的物体级别理解,具备开放世界(Open-world)目标检测能力。无需任何用户提示,即可直接检测图像中的所有物体。
DINO-X的核心优势:
万物识别: 无需人工指引,即可识别各种物体,包括罕见的、出现频率低的物体。在LVIS-minival数据集上,DINO-X Pro取得了59.7%的AP,大幅领先其他算法。其在稀有类别上的AP更是高达63.3%。
卓越泛化能力: 基于超过1亿高质量样本的大规模数据集训练,DINO-X对未知场景和新物体具有极强的适应性,即使面对未曾见过的物体或环境,也能保持高水平的检测性能。
多任务处理: DINO-X整合了多个感知头,支持图像分割、姿态估计、区域描述和基于区域的问答等多种任务。
长尾目标检测优化: 支持文本提示、视觉提示以及视觉提示优化的自定义提示,更好地处理长尾目标检测任务。
开放世界应用: DINO-X的万物识别能力使其能够轻松应对真实世界中的不确定性和开放环境,为具身智能、大规模多模态数据自动标注、视障人士服务等场景提供有力支持。
行业平台架构与应用:
IDEA团队同时推出了行业平台架构,该架构基于DINO-X大模型基座,结合通用识别技术,无需重新训练模型即可满足各种B端应用需求,实现边用边学。 这解决了传统小模型数量多、维护成本高、准确率不足等问题。
DINO-X还为中小企业提供便捷高效的计数和标注工具。 与市场上基于全图理解的多模态大模型不同,DINO-X通过在物体级别理解上加入语言模块,优化了大模型的幻觉问题。 此外,其自研的“视觉提示优化”方法,无需更改模型结构或重新训练,即可实现小样本下的场景化定制。
开放API及论文:
IDEA研究院开放了DINO-X API: https://www.php.cn/link/612d1d91c87e0a19c048f3daa38676fd
论文链接:https://www.php.cn/link/8a120841f6d5c47c94488e653838c810
从DINO到DINO-X,IDEA研究院持续推动视觉感知技术发展,DINO-X的出色表现为众多行业带来了新的机遇。
以上就是IDEA研究院发布DINO-X目标检测视觉大模型的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号