Granite-Docling-258M— IBM推出的轻量级视觉语言模型-人工智能-PHP中文网

Granite-Docling-258M— IBM推出的轻量级视觉语言模型

DDD

发布： 2025-09-23 12:57:05

原创

331人浏览过

Granite-Docling-258M 是什么

granite-docling-258m 是由 ibm 推出的一款轻量级视觉语言模型，专为高效文档转换而设计。该模型能够将各类文档精准转换为机器可读格式，同时完整保留原始的布局结构、表格、公式等关键元素。尽管参数量仅为 258m，但其性能表现优异，具备高成本效益，并支持多种语言处理，包括阿拉伯语、中文和日语。模型采用 doctags 格式对文档结构进行精确描述，有效避免信息丢失。此外，granite-docling-258m 可与 docling 库无缝集成，提供强大的定制能力和错误处理机制，适用于企业级文档自动化处理，是当前文档智能领域的有力工具。

腾讯AI 开放平台

腾讯AI开放平台

381

查看详情

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Granite-Docling-258M 的主要功能

高精度文档解析：可准确识别文档中的文字、表格、数学公式、图表等内容，为后续的数据处理提供结构清晰、语义完整的输入基础。
结构化转换能力：在文档格式转换过程中，全面保留原始排版与层级结构，确保输出结果与原文件高度一致，便于阅读与编辑。
多模态输入兼容：支持图像和文本双模式输入，能处理扫描件、手写笔记以及电子文档等多种来源，扩展了实际应用场景。
多语言支持：具备处理多种语言文档的能力，满足全球化业务需求，尤其适合跨国公司或多语言办公环境。
快速数据提取：能够高效抽取文档中的关键信息和结构化字段，显著提升信息处理效率，减少人工干预。
多样化输出格式：支持生成 Markdown、HTML、JSON 等通用格式，方便对接下游系统或用于网页展示、数据分析等用途。
高度可定制化：通过与 Docling 开源库集成，用户可根据具体业务需求自定义处理流程，实现个性化文档解析与转换。
企业级可靠性：经过优化设计，模型运行稳定，容错能力强，适合在大规模、高并发的企业环境中部署使用。

Granite-Docling-258M 的技术原理

整体架构组成：
- 视觉编码器：采用 siglip2-base-patch16-512 模型作为视觉骨干网络，负责从图像中提取文档的视觉特征，如段落位置、表格边框等。
- 视觉-语言连接模块：基于像素洗牌投影器（pixel shuffle projector）实现视觉特征到语言空间的映射，打通图文信息融合通道。
- 语言解码器：以 Granite 165M 为基础的语言模型，负责理解上下文并生成符合逻辑的自然语言描述和结构化输出。
DocTags 结构化标记语言：这是一种专为文档设计的通用标签体系，能够精确标注文档中各类元素（如标题、列表、表格、公式）的位置及其语义关系。DocTags 提升了大模型对复杂文档的理解能力，输出可直接转化为 Markdown、HTML 或 JSON 等标准格式。
训练数据构成：模型训练融合了公开数据集与内部合成数据，涵盖 SynthCodeNet（代码片段）、SynthFormulaNet（数学表达式）、SynthChartNet（图表数据）以及 DoclingMatix（真实文档页面）。高质量的标注数据帮助模型深入学习文档结构规律，从而提高解析准确率和鲁棒性。