mm-eureka:一款高效的多模态推理模型
MM-Eureka是由上海人工智能实验室、上海创智学院、上海交通大学和香港大学联合研发的多模态推理模型。它巧妙地将单模态推理中的关键特性(例如,稳定的答案长度增长、准确性奖励和“顿悟”时刻)扩展到多模态领域,其核心技术在于基于规则的大规模强化学习(RL)。
该模型包含两个主要版本:MM-Eureka-8B 和 MM-Eureka-Zero-38B,分别基于InternVL2.5-Instruct-8B 和 InternVL2.5-Pretrained-38B。令人瞩目的是,MM-Eureka仅需54K图文数据进行规则型强化学习训练,其平均性能就超越了使用1M数据的MPO模型。更进一步,MM-Eureka-Zero-38B 仅用8K图文数学推理数据,在自定义的K12基准测试中便超越指令模型8.2%,并在MathVerse上展现出相当的性能。
核心功能与技术优势:
技术细节:
MM-Eureka的核心在于其基于规则的大规模强化学习框架,该框架能够有效地将文本RL系统的关键特性迁移到多模态环境中。 研究团队发现数据选择对RL训练至关重要,因此采用了基于难度的过滤策略。 此外,模型采用了简洁的奖励函数(例如,准确性和格式奖励),并避免了KL散度等可能限制模型探索的因素。
应用前景:
MM-Eureka的强大多模态推理能力使其在多个领域具有广泛的应用前景,包括:
项目信息:
总而言之,MM-Eureka凭借其高效的训练方法和强大的多模态推理能力,有望在多个领域带来突破性的进展。
以上就是MM-Eureka— 上海AI Lab联合上交大等推出的多模态推理模型的详细内容,更多请关注php中文网其它相关文章!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号