首页 > 新闻 > IT新闻 > 正文

美团 LongCat 发布 UNO-Bench,统一的多模态模型基准测试

碧海醫心
发布: 2025-11-06 14:19:02
原创
736人浏览过

美团longcat团队发布了uno-bench,这是一个用于评估多模态大语言模型统一能力的综合性基准测试。

该基准致力于系统化衡量模型在单模态与全模态理解方面的表现,覆盖44种任务类型以及5种不同的模态组合,并通过实验揭示了全模态性能与单模态能力之间的组合规律。

美团 LongCat 发布 UNO-Bench,统一的多模态模型基准测试

据悉,UNO-Bench包含1250个经过人工精心筛选的全模态样本(跨模态可解性高达98%)和2480个增强型单模态样本。其中,人工构建的数据集更贴近真实应用场景,尤其适用于中文环境;而自动压缩版本则提升了90%的运行效率,在保持与原始数据一致性的前提下,在18项公开基准上实现了98%的结果一致性。除了传统选择题外,团队还提出了一种新颖的多步骤开放式问题形式,以评估模型在复杂推理任务中的表现。这一形式结合了一个通用评分模型,支持对6类题型进行自动化评估,准确率高达95%。

美团 LongCat 发布 UNO-Bench,统一的多模态模型基准测试

百灵大模型
百灵大模型

蚂蚁集团自研的多模态AI大模型系列

百灵大模型 177
查看详情 百灵大模型

目前,UNO-Bench主要聚焦于中文场景,团队正积极寻求合作,推动英语及多语言版本的开发。UNO-Bench数据集已发布于Hugging Face平台,相关代码、论文及项目详情均已开源。

https://www.php.cn/link/455c8959885c1b38871319571e9ab72c
https://www.php.cn/link/36a213dec58f9ae20b81cd14d3358981
https://www.php.cn/link/db17bc578c383f5bb0cb9be70c42331c

以上就是美团 LongCat 发布 UNO-Bench,统一的多模态模型基准测试的详细内容,更多请关注php中文网其它相关文章!

美团
美团

美团app是一款吃喝玩乐一应俱全的生活服务类软件,汇集团购、美食、酒店、外卖、电影、美发、美甲、KTV等服务于一体,为用户提供非常便利且全面的服务,有需要的小伙伴快来保存下载体验吧!

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号