Pixel Reasoner— 滑铁卢联合港科大等高校推出的视觉语言模型-人工智能-PHP中文网

Pixel Reasoner— 滑铁卢联合港科大等高校推出的视觉语言模型

聖光之護

发布： 2025-05-27 16:22:14

原创

824人浏览过

Pixel Interpreter是什么

pixel interpreter是由滑铁卢大学、香港科技大学、中国科学技术大学等学术机构共同开发的一种视觉语言模型（vlm）。该模型通过在像素空间中进行推理来增强其对视觉信息的理解与推断能力。它能够直接作用于视觉输入，比如放大图像的特定部分或者选取视频的关键帧，从而更细致地捕获视觉细节。pixel interpreter采用了双阶段训练方式，首先利用指令调优使模型熟悉各种视觉操作，然后借助好奇心引导的强化学习机制激发模型去探索像素级别的推理路径。这一模型在多项视觉推理基准测试中表现卓越，大幅提升了涉及大量视觉元素的任务执行效率。

百川大模型

百川智能公司推出的一系列大型语言模型产品

查看详情

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
Pixel Interpreter的核心特性

直接视觉干预：可以直接操控视觉资料（例如图像或视频），像是放大某部分图像（zoom-in）、挑选视频片段（select-frame）等，以便更加精确地获取视觉信息。
强化视觉解析：可以辨识并理解图像内微小物件、复杂的空间关联、隐藏的文字以及视频里的精细动作。
跨模态逻辑推理：能更好地应对融合了多种感官输入的任务，比如视觉问答（VQA）、视频解读等。
动态推理调整：依据具体任务的需求灵活决定是否采用视觉干预手段，以达到最佳的推理成效。

Pixel Interpreter的工作机制

指令优化（Instruction Optimization）：
- 搜集基础样本：挑选富含视觉数据的图像与视频集合作为起点，例如SA1B、FineWeb和STARQA。
- 定位关键视觉标志：借助已有标签或是由GPT-4o生成的新标签来标示与问题相关的视觉特征（如框选区域或时间点）。
- 构建专业流程：运用模板化的方式构造推理流程，保证模型在执行推理时准确无误地应用视觉操作。比如，先整体审视视觉材料，接着激活特定的视觉操作提取局部细节，最后整合这些细节得出结论。
培训流程：通过监督学习（Supervised Fine-Tuning, SFT）对模型加以训练，使其熟练掌握视觉操作技巧。同时加入模拟错误操作的案例，并结合自我纠正的过程，进一步提升模型应对异常视觉结果的能力。
好奇心导向的强化学习：设计了一套奖励体系，其中包含了好奇心因素和效能考量，促使模型积极探查像素级推理的可能性。
迭代学习进程：运用强化学习（RL）持续优化模型，依靠好奇心奖励推动模型深入探索像素空间推理领域，同时通过效能惩罚限制不必要的视觉操作次数。基于近似策略RL算法，每隔512次查询便更新一次行为策略和改进策略。随着训练推进，模型学会了在适宜的情境下合理运用像素级推理，并且能够在视觉操作失误时自行修复。