IBM 发布 Granite-Docling-258M：开源企业级文档 AI 模型

聖光之護

发布时间：2025-09-18 13:27:32

966人浏览过

来源于php中文网

原创

ibm 发布 granite-docling-258m：开源企业级文档 ai 模型

IBM 正式推出 Granite-Docling-258M，一款面向端到端文档转换的开源视觉语言模型。与传统 OCR 技术不同，该模型专注于保留原始文档的布局结构，能够精准识别并提取表格、代码段、数学公式、列表、标题等复杂元素，并生成具备完整结构信息的机器可读输出，而非仅输出简化版的 Markdown。

作为 SmolDocling-256M 的升级版本，Granite-Docling 在架构层面进行了多项优化：采用 Granite165M 作为其语言解码核心，将视觉编码器升级为 SigLIP2，并延续使用 Idefics3 风格的连接模块。这些改进使模型参数规模达到 258M，在布局解析、整页文字识别以及对代码、公式和表格的还原精度上实现了显著增强。同时，IBM 修复了早期预览版本中存在的系统不稳定性问题，例如重复 token 的循环生成现象。

该模型基于 Idefics3 架构构建，训练过程依托 nanoVLM 框架完成。其输出格式采用 IBM 自研的 DocTags 标记语言，能够精确描述文档中各元素的位置坐标、类型及相互关系，便于后续转换为 Markdown、HTML 或 JSON 等标准格式。这种结构化表达方式不仅有效维持了文档的逻辑顺序与视觉拓扑（如表格结构和公式排版），还提升了内容索引效率与检索性能。

TextIn Tools

是一款免费在线OCR工具，包含文字识别、表格识别，PDF转文件，文件转PDF、其他格式转换，识别率高，体验好，免费。

下载

在语言支持方面，Granite-Docling 首次引入对日语、阿拉伯语和中文的实验性适配，尽管当前仍以英语为主要处理语言。IBM 推荐用户将其与 Docling 工具套件结合使用，通过提供的 CLI 命令行接口或 SDK 软件开发工具包，实现 PDF 文件、办公文档及图像文件向多种格式的自动化转换。该模型兼容 Transformers、vLLM、ONNX 和 MLX 等主流推理框架，并针对 Apple Silicon 芯片进行了性能优化，确保在多种硬件环境下高效运行。

Electron 38.0.0 发布，跨平台桌面应用开发工具

APP开发都需要用到什么技术？

快应用是指什么？

Python前端开发整理大全！

APP前端开发对技术要求高么？

相关标签:

html js json 编码 app 工具 ai pdf apple 软件开发架构 json html Token 循环接口 ocr 性能优化自动化

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：马路上漂移冲进绿化带！余承东：有些车一味追求2秒加速、3秒加速没意义下一篇：全球首搭豆包深度思考大模型荣威M7 DMH打造“最懂用户智能车”

作者最新文章

YDB 中如何安全地将动态参数传递给会话池执行的 SQL 查询

2025-12-30 13:46

PHP 中使用 glob() 快速定位并访问指定序号的目录

2025-12-30 13:47

实现两个开关按钮的互斥切换（一个开启时另一个自动关闭）

2025-12-30 13:49

如何在网页中安全地请求并使用文件系统编辑权限

2025-12-30 13:50

一股暴死味《007：初露锋芒》称面向“现代观众”

2025-12-30 13:54

Go 语言构建流程中如何集成额外的编译步骤？

2025-12-30 13:55

新三国志曹操传新年庆典活动速通攻略

2025-12-30 14:04

如何在 Go App Engine 项目中正确使用 go get 安装的外部包

2025-12-30 14:07

Go 中自定义结构体的可读性格式化：实现 Stringer 接口实现优雅打印

2025-12-30 14:08

如何精准固定背景上的可交互元素（如悬浮点击区域）

2025-12-30 14:09

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

402

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

528

2023.08.23