0

0

2025 年 Q4“方升-多模态”大模型基准测试结果发布

聖光之護

聖光之護

发布时间:2026-01-09 16:24:35

|

685人浏览过

|

来源于php中文网

原创

中国信息通信研究院近期顺利完成2025年第四季度多模态大模型专项评测工作,最新评测体系及结果公布如下:

本次测试于2025年11月至12月开展,覆盖多模态理解、文本生成图像(文生图)、文本生成视频(文生视频)三大核心任务,共对30款主流模型展开系统性评估,其中包括10款多模态理解模型、10款视频生成模型与10款图像生成模型。

1、多模态理解任务评测结果

该任务重点检验模型对图像、文本、图表等跨模态信息的深度解析能力与逻辑推理水平,测试维度涵盖函数求解、几何建模、表格解读、身份识别、色彩判别、趋势预判、关系推演、物理规律应用及IQ类高阶推理等九大方向。

本期共评测10款多模态理解大模型,其中国产模型5款、海外模型5款,代表性模型包括Google Gemini-3-pro-preview、OpenAI GPT-5.2-high、智谱GLM-4.6V、字节跳动Doubao-Seed-1-6-vision-250815等。评测结果表明:第一,谷歌Gemini-3-pro-preview综合表现拔得头筹,小幅领先GPT-5.2-High,并明显优于GLM-4.6V;第二,国产模型整体表现趋近,GLM-4.6V、Doubao-Seed-1-6-vision与Qwen3-VL-235B-A22B-Thinking三项得分高度重叠,反映出国内在关键理解能力上正加速缩小差距。

2025 年 Q4“方升-多模态”大模型基准测试结果发布

本阶段测试设置9类细分指标,各能力维度发展不均衡:从全球模型整体来看,在身份识别、趋势预测、色彩判断等基础感知类任务中已达较高成熟度;而在函数建模、几何推理、IQ类抽象问题等强逻辑、跨学科任务上仍面临明显瓶颈。国产模型在规则清晰、范式明确的任务(如身份识别、色彩分析、物理规律应用)中表现稳健;但在开放性推理、长链逻辑推导或动态场景模拟类任务(如未来预测、IQ综合题)中,尚存优化空间。

2025 年 Q4“方升-多模态”大模型基准测试结果发布

结合2025年2月至12月的连续跟踪数据可见,国内外多模态大模型在图像理解能力方面均保持稳定提升,印证多模态理解已成为全球AI竞争的核心焦点。值得关注的是,国产模型视觉理解能力进步显著,但面向真实物理世界复杂现象的理解与因果推理能力,与国际领先水平相比仍有待加强。

2025 年 Q4“方升-多模态”大模型基准测试结果发布

2、文生图任务评测结果

该任务聚焦模型依据文本指令生成高质量图像的能力,核心评估维度包括色彩表现力、空间结构构建、中国文化元素呈现、主体刻画精度、要素还原度、文字内容生成能力及数量一致性控制能力。

本轮共评测10款图像生成模型,其中国产模型6款、海外模型4款,涵盖字节跳动Seedream 4.5、谷歌Nano Banana Pro、阿里巴巴Wan2.6、Z-Image-Turbo等主流产品。评测结果显示:第一,海外模型暂居优势地位,谷歌Nano Banana Pro综合得分位列第一,阿里巴巴Z-Image-Turbo以微小分差紧随其后;第二,国产模型整体表现高度集中,Seedream 4.5、腾讯HunyuanImage3.0与Wan2.6三者能力接近,展现出强劲的本土化竞争力。

2025 年 Q4“方升-多模态”大模型基准测试结果发布

在具体能力分布上,国产模型在色彩还原、要素保真度及中国文化表达等维度优于海外竞品,凸显其在精细化可控生成方面的技术积累,也体现其依托本土语料与审美偏好进行定向训练的优势。但当前模型在文字生成准确性、数量稳定性控制、三维空间布局合理性等方面仍存在短板,例如文字易出现笔画错误、物体数量难以精准匹配、空间层级与对象关系建模不够严谨等。总体而言,模型对单一属性类提示响应良好,而对“数量—空间位置—对象关联”等复合型指令的协同执行能力仍需突破。

2025 年 Q4“方升-多模态”大模型基准测试结果发布

Runwayml(AI painting)
Runwayml(AI painting)

Runway 平台的文本生成图像AI工具

下载

从2025年全年持续评测趋势看,国内外文生图模型能力日趋接近,整体性能均有显著跃升。目前,国产模型在物理空间建模精度、多要素协同还原、多轮迭代式图像编辑等进阶能力方面,仍具备较大提升潜力。

2025 年 Q4“方升-多模态”大模型基准测试结果发布

3、文生视频任务评测结果

该任务评估模型根据文本描述生成连贯、自然、富有表现力视频的能力,评测维度包括画质渲染质量、要素组织能力、动态演化表现、三维空间模拟、影视级素材生成、超现实风格构建及中国文化适配性。

本轮共评测10款视频生成模型,其中国产模型7款、海外模型3款,代表模型包括Runway Gen-4.5、OpenAI Sora2、快手可灵2.6、阿里巴巴Wan-2.6等。评测结果表明:第一,Runway Gen-4.5综合得分位居榜首,以细微优势领先于快手可灵2.6;第二,国产模型强势入围前五,快手可灵2.6、阿里巴巴Wan-2.6与字节跳动即梦3.0分列第2、第4与第5位,在多项关键技术指标上已达到国际先进水准;第三,国产模型迭代节奏更快,以快手可灵为例,自1.0至2.6版本在约18个月内完成超7次重要升级,而OpenAI从Sora到Sora2的大版本更新周期约为20个月。

2025 年 Q4“方升-多模态”大模型基准测试结果发布

在能力对比层面,国产模型在“中国文化适配性”与“影视素材生成质量”两项指标上显著优于海外模型,体现出其在本土文化语义理解、影视级美学风格复现等方面的专项优化成果;海外模型则在三维空间建模精度与多要素协同组织能力上仍具一定优势。整体来看,现有模型在动作逻辑合理性、时间序列连贯性、画面细节完整性等方面仍偶有偏差,尤其在融合“物理规律—动态过程—场景细节”的复合型生成任务中,仍需持续攻坚。

2025 年 Q4“方升-多模态”大模型基准测试结果发布

2025年度系列评测显示,国产头部视频生成模型展现出极强的技术演进动能:上半年与国际顶尖水平尚存阶段性差距,至年末已在综合性能上实现并跑。然而,在物理空间建模精度、多层级要素协同搭建等高阶能力维度,国内外模型仍处于共同突破的关键阶段。

2025 年 Q4“方升-多模态”大模型基准测试结果发布


“方升-多模态”大模型基准评测体系,构建了涵盖评估指标设计、评测数据构建、评测方法论、自动化测试工具四大支柱的全式评估框架。在评估指标方面,围绕“多模态理解”与“多模态生成”双主线,系统覆盖函数推理、几何建模、图表解析,以及视频流畅性、物理一致性、图像美学质量等多维能力;在评测数据方面,已自主构建超20万条高质量多模态评测样本,其中视觉理解类数据侧重选择题、判断题与开放式问答推理,文生图与文生视频类数据则重点考察模型对复杂组合提示词的准确响应能力,为模型调优提供坚实数据支撑;在评测方法方面,创新融合大模型辅助评测与标准化定量评测,形成支持多模态交互一致性的协同评估机制;在测试工具方面,严格遵循统一多模态评估框架,实现对理解能力、生成能力与跨模态协调能力的一体化、自动化、规模化评测。

源码地址:点击下载

相关专题

更多
堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

382

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

567

2023.08.10

PHP 命令行脚本与自动化任务开发
PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境(CLI)下的开发与应用,内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理,以及与 Linux 定时任务(Cron)的结合使用。通过实战示例,帮助开发者掌握使用 PHP 构建 自动化脚本、批处理工具与后台任务程序 的能力。

26

2025.12.13

c++主流开发框架汇总
c++主流开发框架汇总

本专题整合了c++开发框架推荐,阅读专题下面的文章了解更多详细内容。

3

2026.01.09

c++框架学习教程汇总
c++框架学习教程汇总

本专题整合了c++框架学习教程汇总,阅读专题下面的文章了解更多详细内容。

7

2026.01.09

学python好用的网站推荐
学python好用的网站推荐

本专题整合了python学习教程汇总,阅读专题下面的文章了解更多详细内容。

10

2026.01.09

学python网站汇总
学python网站汇总

本专题整合了学python网站汇总,阅读专题下面的文章了解更多详细内容。

1

2026.01.09

python学习网站
python学习网站

本专题整合了python学习相关推荐汇总,阅读专题下面的文章了解更多详细内容。

4

2026.01.09

俄罗斯手机浏览器地址汇总
俄罗斯手机浏览器地址汇总

汇总俄罗斯Yandex手机浏览器官方网址入口,涵盖国际版与俄语版,适配移动端访问,一键直达搜索、地图、新闻等核心服务。

9

2026.01.09

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Go 教程
Go 教程

共32课时 | 3.5万人学习

Go语言实战之 GraphQL
Go语言实战之 GraphQL

共10课时 | 0.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号