Ovis-U1— 阿里推出的多模态统一模型-人工智能-PHP中文网

Ovis-U1— 阿里推出的多模态统一模型

碧海醫心

发布： 2025-07-01 13:48:27

原创

410人浏览过

Ovis-U1简介

ovis-u1是由阿里巴巴集团ovis团队研发的一款多模态统一模型，参数规模达到30亿。该模型融合了多模态理解、文本生成图像以及图像编辑三大核心功能，依托先进的架构和统一训练机制，实现高质量的图像合成与高效的图文交互。在多个学术基准测试中，ovis-u1展现出卓越的泛化能力与性能优势。

百灵大模型

蚂蚁集团自研的多模态AI大模型系列

177

查看详情

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
主要功能特性

多模态理解：能够解析复杂的视觉内容与文本信息，完成图像相关问题的回答、视觉问答（VQA）任务以及图像描述生成。
文本驱动图像生成：依据文字描述创建高质量图像，支持多样风格与复杂场景的表现。
图像编辑能力：根据文本指令对图像进行精细调整，包括对象的添加、修改、替换、删除以及风格转换等操作。

核心技术架构

系统结构：
- 视觉解码器（Visual Decoder）：采用基于扩散机制的Transformer架构（MMDiT），从文本嵌入生成高分辨率图像。
- 双向令牌优化模块（Bidirectional Token Refiner）：加强文本与视觉嵌入之间的协同作用，提升生成与编辑效果。
- 视觉编码器（Visual Encoder）：使用预训练模型（如Aimv2-large-patch14-448）并进行微调，适配多模态任务需求。
- 连接适配器（Adapter）：用于对接视觉编码器与多模态大语言模型（MLLM），实现视觉与文本特征的匹配。
- 多模态大语言模型（MLLM）：作为处理图文信息的核心组件，支撑多种多模态任务。
统一训练策略：Ovis-U1通过同时训练多模态理解、图像生成与图像编辑任务，利用共享知识增强模型泛化性。训练共分为六个阶段，逐步优化各项任务表现。
数据来源：
- 多模态理解数据集：涵盖COYO、Wukong、Laion、ShareGPT4V、CC3M等公开资源及内部构建的数据。
- 文本到图像生成数据：使用Laion5B与JourneyDB数据集，并借助预训练模型生成详尽描述。
- 图文驱动图像生成数据：覆盖图像编辑、参考图引导生成、像素级控制生成等多种任务。
性能调优：在图像编辑方面，调节文本与图像引导系数（CFG），实现更精准的指令响应。通过OpenCompass、GenEval、DPG-Bench、ImgEdit-Bench、GEdit-Bench-EN等多个评估平台全面检验模型能力。