2025 年 Q4“方升-多模态”大模型基准测试结果发布

聖光之護

发布时间：2026-01-09 16:24:35

685人浏览过

来源于php中文网

原创

中国信息通信研究院近期顺利完成2025年第四季度多模态大模型专项评测工作，最新评测体系及结果公布如下：

本次测试于2025年11月至12月开展，覆盖多模态理解、文本生成图像（文生图）、文本生成视频（文生视频）三大核心任务，共对30款主流模型展开系统性评估，其中包括10款多模态理解模型、10款视频生成模型与10款图像生成模型。

1、多模态理解任务评测结果

该任务重点检验模型对图像、文本、图表等跨模态信息的深度解析能力与逻辑推理水平，测试维度涵盖函数求解、几何建模、表格解读、身份识别、色彩判别、趋势预判、关系推演、物理规律应用及IQ类高阶推理等九大方向。

本期共评测10款多模态理解大模型，其中国产模型5款、海外模型5款，代表性模型包括Google Gemini-3-pro-preview、OpenAI GPT-5.2-high、智谱GLM-4.6V、字节跳动Doubao-Seed-1-6-vision-250815等。评测结果表明：第一，谷歌Gemini-3-pro-preview综合表现拔得头筹，小幅领先GPT-5.2-High，并明显优于GLM-4.6V；第二，国产模型整体表现趋近，GLM-4.6V、Doubao-Seed-1-6-vision与Qwen3-VL-235B-A22B-Thinking三项得分高度重叠，反映出国内在关键理解能力上正加速缩小差距。

2025 年 Q4“方升-多模态”大模型基准测试结果发布

本阶段测试设置9类细分指标，各能力维度发展不均衡：从全球模型整体来看，在身份识别、趋势预测、色彩判断等基础感知类任务中已达较高成熟度；而在函数建模、几何推理、IQ类抽象问题等强逻辑、跨学科任务上仍面临明显瓶颈。国产模型在规则清晰、范式明确的任务（如身份识别、色彩分析、物理规律应用）中表现稳健；但在开放性推理、长链逻辑推导或动态场景模拟类任务（如未来预测、IQ综合题）中，尚存优化空间。

2025 年 Q4“方升-多模态”大模型基准测试结果发布

结合2025年2月至12月的连续跟踪数据可见，国内外多模态大模型在图像理解能力方面均保持稳定提升，印证多模态理解已成为全球AI竞争的核心焦点。值得关注的是，国产模型视觉理解能力进步显著，但面向真实物理世界复杂现象的理解与因果推理能力，与国际领先水平相比仍有待加强。

2025 年 Q4“方升-多模态”大模型基准测试结果发布

2、文生图任务评测结果

该任务聚焦模型依据文本指令生成高质量图像的能力，核心评估维度包括色彩表现力、空间结构构建、中国文化元素呈现、主体刻画精度、要素还原度、文字内容生成能力及数量一致性控制能力。

本轮共评测10款图像生成模型，其中国产模型6款、海外模型4款，涵盖字节跳动Seedream 4.5、谷歌Nano Banana Pro、阿里巴巴Wan2.6、Z-Image-Turbo等主流产品。评测结果显示：第一，海外模型暂居优势地位，谷歌Nano Banana Pro综合得分位列第一，阿里巴巴Z-Image-Turbo以微小分差紧随其后；第二，国产模型整体表现高度集中，Seedream 4.5、腾讯HunyuanImage3.0与Wan2.6三者能力接近，展现出强劲的本土化竞争力。

2025 年 Q4“方升-多模态”大模型基准测试结果发布

在具体能力分布上，国产模型在色彩还原、要素保真度及中国文化表达等维度优于海外竞品，凸显其在精细化可控生成方面的技术积累，也体现其依托本土语料与审美偏好进行定向训练的优势。但当前模型在文字生成准确性、数量稳定性控制、三维空间布局合理性等方面仍存在短板，例如文字易出现笔画错误、物体数量难以精准匹配、空间层级与对象关系建模不够严谨等。总体而言，模型对单一属性类提示响应良好，而对“数量—空间位置—对象关联”等复合型指令的协同执行能力仍需突破。

2025 年 Q4“方升-多模态”大模型基准测试结果发布

Runwayml（AI painting）

Runway 平台的文本生成图像AI工具

下载

从2025年全年持续评测趋势看，国内外文生图模型能力日趋接近，整体性能均有显著跃升。目前，国产模型在物理空间建模精度、多要素协同还原、多轮迭代式图像编辑等进阶能力方面，仍具备较大提升潜力。

2025 年 Q4“方升-多模态”大模型基准测试结果发布

3、文生视频任务评测结果

该任务评估模型根据文本描述生成连贯、自然、富有表现力视频的能力，评测维度包括画质渲染质量、要素组织能力、动态演化表现、三维空间模拟、影视级素材生成、超现实风格构建及中国文化适配性。

本轮共评测10款视频生成模型，其中国产模型7款、海外模型3款，代表模型包括Runway Gen-4.5、OpenAI Sora2、快手可灵2.6、阿里巴巴Wan-2.6等。评测结果表明：第一，Runway Gen-4.5综合得分位居榜首，以细微优势领先于快手可灵2.6；第二，国产模型强势入围前五，快手可灵2.6、阿里巴巴Wan-2.6与字节跳动即梦3.0分列第2、第4与第5位，在多项关键技术指标上已达到国际先进水准；第三，国产模型迭代节奏更快，以快手可灵为例，自1.0至2.6版本在约18个月内完成超7次重要升级，而OpenAI从Sora到Sora2的大版本更新周期约为20个月。

2025 年 Q4“方升-多模态”大模型基准测试结果发布

在能力对比层面，国产模型在“中国文化适配性”与“影视素材生成质量”两项指标上显著优于海外模型，体现出其在本土文化语义理解、影视级美学风格复现等方面的专项优化成果；海外模型则在三维空间建模精度与多要素协同组织能力上仍具一定优势。整体来看，现有模型在动作逻辑合理性、时间序列连贯性、画面细节完整性等方面仍偶有偏差，尤其在融合“物理规律—动态过程—场景细节”的复合型生成任务中，仍需持续攻坚。

2025 年 Q4“方升-多模态”大模型基准测试结果发布

2025年度系列评测显示，国产头部视频生成模型展现出极强的技术演进动能：上半年与国际顶尖水平尚存阶段性差距，至年末已在综合性能上实现并跑。然而，在物理空间建模精度、多层级要素协同搭建等高阶能力维度，国内外模型仍处于共同突破的关键阶段。

2025 年 Q4“方升-多模态”大模型基准测试结果发布

“方升-多模态”大模型基准评测体系，构建了涵盖评估指标设计、评测数据构建、评测方法论、自动化测试工具四大支柱的全栈式评估框架。在评估指标方面，围绕“多模态理解”与“多模态生成”双主线，系统覆盖函数推理、几何建模、图表解析，以及视频流畅性、物理一致性、图像美学质量等多维能力；在评测数据方面，已自主构建超20万条高质量多模态评测样本，其中视觉理解类数据侧重选择题、判断题与开放式问答推理，文生图与文生视频类数据则重点考察模型对复杂组合提示词的准确响应能力，为模型调优提供坚实数据支撑；在评测方法方面，创新融合大模型辅助评测与标准化定量评测，形成支持多模态交互一致性的协同评估机制；在测试工具方面，严格遵循统一多模态评估框架，实现对理解能力、生成能力与跨模态协调能力的一体化、自动化、规模化评测。

源码地址：点击下载

Selenium 创始人发布 Vibium，面向 AI Agent 的浏览器自动化架构

RuleGo v0.35.0 发布：国产轻量级、全场景、新一代组件编排规则引擎

EasyGoAdmin 敏捷开发框架 GoFrame+EleVue 版本 v2.6.0 发布

ip2region 3.11.0 发布 - Go 并发安全支持 / Java 优化

OpenAI开放全球用户用ChatGPT群组聊天最多可20人