年末巨献！DeepSeek推出多模态模型Janus-Pro，统一理解与生成-手机软件-PHP中文网

年末巨献！DeepSeek推出多模态模型Janus-Pro，统一理解与生成

雪夜

发布： 2025-04-23 13:20:16

原创

565人浏览过

美股nasdaq仍未从deepseek r1的冲击中恢复，deepseek又推出了新的多模态模型。

年末巨献！DeepSeek推出多模态模型Janus-Pro，统一理解与生成今日，DeepSeek正式发布了Janus-Pro 1B/7B双版本多模态大语言模型！它不仅解决了传统模型在"理解"与"生成"之间的两难抉择，还通过统一架构刷新了性能极限。仅用7B参数，它就超越了Stable Diffusion和Dalle3。一、Janus-Pro为何是革命性突破？传统多模态模型常常陷入"分身乏术"的困境：视觉编码器既要精准理解图像内容，又要为生成任务保留细节特征，这种角色冲突导致模型表现受限。而Janus-Pro通过三大创新设计破解了这一困局：1. 视觉路径解耦技术首创"双通道视觉处理"架构，理解任务采用SigLIP-L编码器（384x384高清解析），生成任务则使用专用tokenizer（16倍下采样优化）。这就像专业团队分工协作，各自发挥极致性能。2. 统一Transformer架构在解耦视觉路径的同时，保持单一自回归框架处理多模态数据，既降低计算成本，又实现跨模态信息的深度交互。

年末巨献！DeepSeek推出多模态模型Janus-Pro，统一理解与生成 3. 动态角色切换能力模型能根据输入指令自动切换"理解模式"或"生成模式"，在对话中实现"看懂即创作"的无缝衔接。二、性能全面碾压！理解与生成双料冠军在权威测试中，Janus-Pro展现出跨代际优势：理解任务：在VQAv2、OK-VQA等8项基准测试中，超越Flamingo、BLIP-2等前辈模型生成任务：图像描述、视觉创作等场景下，质量直逼Stable Diffusion专业模型综合能力：单模型同时达到GPT-4V级别的理解能力和Midjourney级别的生成水平