dots.vlm1— 小红书hi lab开源的首个多模态大模型

霞舞

发布时间：2025-08-07 13:04:15

671人浏览过

来源于php中文网

原创

dots.vlm1是什么

dots.vlm1 是由小红书 hi lab 推出的首个开源多模态大模型，标志着其在多模态ai领域的重大突破。该模型结合了一个从零训练的12亿参数视觉编码器 navit 与强大的 deepseek v3 大语言模型（llm），在视觉感知与文本推理方面均展现出卓越能力。其在多项视觉理解与推理任务上的表现接近当前领先的闭源sota模型，同时在纯文本任务中也保持强劲竞争力。值得注意的是，navit 视觉编码器完全自主训练，原生支持动态分辨率输入，并引入了纯视觉监督信号以增强图像感知能力。训练过程中采用了多种合成数据策略，涵盖丰富类型的图像及其高质量描述，显著提升了整体数据质量与模型泛化性能。

Kacha

KaCha是一款革命性的AI写真工具，用AI技术将照片变成杰作！

下载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
dots.vlm1的主要功能

强大的视觉理解能力：能够精准识别图像内容，包括复杂图表、表格、文档和图形等，支持动态分辨率处理，适用于多样化的视觉任务场景。
高效的文本生成与推理：依托 DeepSeek V3 LLM，具备高质量文本生成能力，在数学解题、代码生成等需要逻辑推理的任务中表现优异。
多模态数据处理：支持图文混合输入，可融合视觉与语言信息进行联合推理，适用于复杂的多模态交互应用。
灵活的适配与扩展：通过轻量级 MLP 适配器连接视觉编码器与语言模型，便于针对不同下游任务进行快速微调和功能扩展。
开源与开放性：全面开放模型权重与代码，鼓励社区参与研究与创新，推动多模态技术生态发展。

dots.vlm1的技术原理

NaViT 视觉编码器：采用一个从零开始训练的12亿参数视觉编码器 NaViT，不依赖任何预训练模型微调。具备原生动态分辨率支持，可处理不同尺寸图像输入，并在传统文本监督之外加入纯视觉对比学习目标，提升底层视觉特征提取能力。
多模态数据训练：构建了涵盖普通图像、专业图表、表格、文档及图形的多样化多模态数据集，配备 Alt Text、Dense Caption、Grounding 等细粒度文本标注。引入网页抓取、PDF 解析等图文交错数据源，并通过自动化重写与清洗流程提高数据质量。
视觉与语言模型融合：将 NaViT 编码器输出通过轻量级 MLP 映射到 DeepSeek V3 LLM 的输入空间，实现跨模态语义对齐与信息融合，支持端到端的多模态推理。
三阶段训练流程：整体训练分为三个阶段——第一阶段为 NaViT 的纯视觉预训练；第二阶段是多模态联合预训练，逐步提升图像分辨率并引入图文对数据；第三阶段为指令微调与对齐后训练，增强模型在实际任务中的响应能力与交互表现。

dots.vlm1的项目地址

GitHub仓库：https://www.php.cn/link/b8a20bf368f5c21fcc1180f653c8293e
Hugging Face模型库：https://www.php.cn/link/d1b4924d687d27239d896aaf8b9a6444
在线体验Demo：https://www.php.cn/link/e273b4b4631a6f6e22eb40b1df2339e9

dots.vlm1的应用场景

复杂图表推理：能够深入分析各类复杂图表，提取关键信息并进行逻辑推导，辅助用户理解数据趋势与结构。
STEM 解题：在科学、技术、工程和数学领域，可协助解答问题，提供步骤清晰的解题思路与解释。
长尾识别：对低频类别或稀有对象具有良好的识别能力，适用于细粒度分类与检索任务。
视觉推理：支持基于图像的推理任务，如障碍物判断、商品对比分析、场景理解等。
图文问答与互动：支持多轮图文对话，能结合上下文进行连贯回应，适用于智能客服、教育辅导等场景。
内容推荐：利用多模态理解能力，在内容平台（如小红书）中实现更精准的图文或视频个性化推荐。

Stable Diffusion ControlNet怎么用 ControlNet插件安装使用详解

Stable Diffusion ControlNet怎么用 ControlNet插件安装及骨架图使用【进阶】

Mistral Vibe CLI— Mistral AI推出的开源命令行代码助手

DeepSeekOCR怎么部署到国产操作系统_统信UOS等系统DeepSeekOCR部署教程

DeepSeekOCR怎么部署到云服务器本地化_云服务器部署DeepSeekOCR并本地化使用教程

小红书

小红书是一款集种草分享、生活购物、社交于一体的综合app。小红书汇集了时尚、美容、生活方式、旅行、美食等多个领域的内容，为用户提供了丰富多彩的体验和无限灵感，有需要的小伙伴快来保存下载体验吧！

下载

相关标签:

git ai 小红书 red deepseek 对象 github http 自动化

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：传新款蔚来ES8租电价格约35万元！本月将开启预订下一篇：表单大师AI表单美化技巧表单大师AI视觉设计操作指南

作者最新文章

Flask 路由端点未注册导致 url_for 构建失败的解决方案

2025-12-30 13:46

JavaScript 中正确遍历 Map 并转换为对象数组的方法

2025-12-30 13:47

《仁王3》最新实机短片：忍术系统“遁术”！

2025-12-30 13:47

国产大作逃不过这一遭?Steam惊现《影之刃零正版》

2025-12-30 13:50

“玩家期待”比开发更难？前B社高管揭秘营销困局

2025-12-30 13:53

《DQ11》制作人回归！重新执掌《勇者斗恶龙》系列

2025-12-30 13:54

如何在调用 karate.toJavaFile 前动态修改 XML 文件内容

2025-12-30 13:56

IDEA 插件 Maven With Me 更新 2.6.x 版本，新增自动同步项目配置助力多 JDK 版本开发！

2025-12-30 13:56

如何优雅同步 Python 多线程并实现跨线程异常驱动的全局退出

2025-12-30 14:03

如何在 PHP 中将多维数组中成对的 FAQ 问答项合并为结构化数据

2025-12-30 14:08

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

270

2023.11.09

http请求415错误怎么解决

解决方法：1、检查请求头中的Content-Type；2、检查请求体中的数据格式；3、使用适当的编码格式；4、使用适当的请求方法；5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容，可以阅读下面的文章。

386

2023.11.14

HTTP 503错误解决方法

HTTP 503错误表示服务器暂时无法处理请求。想了解更多http错误代码的相关内容，可以阅读本专题下面的文章。

1090

2024.03.12

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1716

2024.08.16

PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境（CLI）下的开发与应用，内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理，以及与 Linux 定时任务（Cron）的结合使用。通过实战示例，帮助开发者掌握使用 PHP 构建自动化脚本、批处理工具与后台任务程序的能力。

2025.12.13

php源码安装教程大全

本专题整合了php源码安装教程，阅读专题下面的文章了解更多详细内容。

2025.12.31

php网站源码教程大全

本专题整合了php网站源码相关教程，阅读专题下面的文章了解更多详细内容。

2025.12.31

视频文件格式

本专题整合了视频文件格式相关内容，阅读专题下面的文章了解更多详细内容。

2025.12.31

不受国内限制的浏览器大全

想找真正自由、无限制的上网体验？本合集精选2025年最开放、隐私强、访问无阻的浏览器App，涵盖Tor、Brave、Via、X浏览器、Mullvad等高自由度工具。支持自定义搜索引擎、广告拦截、隐身模式及全球网站无障碍访问，部分更具备防追踪、去谷歌化、双内核切换等高级功能。无论日常浏览、隐私保护还是突破地域限制，总有一款适合你！

2025.12.31

热门下载

网站特效

网站源码

网站素材

前端模板