0

0

Dolphin— 字节跳动开源的文档解析大模型

心靈之曲

心靈之曲

发布时间:2025-05-25 13:06:26

|

728人浏览过

|

来源于php中文网

原创

Dolphin是什么

dolphin 是字节跳动开源的轻量级、高效的文档解析大模型。基于先解析结构后解析内容的两阶段方法,第一阶段生成文档布局元素序列,第二阶段用元素作为锚点并行解析内容。dolphin在多种文档解析任务上表现出色,性能超越gpt-4.1、mistral-ocr等模型。dolphin 具有322m参数,体积小、速度快,支持多种文档元素解析,包括文本、表格、公式等。dolphin的代码和预训练模型已公开,方便开发者使用和研究。

BlackBox AI
BlackBox AI

AI编程助手,智能对话问答助手

下载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Dolphin— 字节跳动开源的文档解析大模型

Dolphin的主要功能

  • 布局分析:识别文档中的各种元素(如标题、图表、表格、脚注等),按照自然阅读顺序生成元素序列。
  • 内容提取:将整个文档页面解析为结构化的JSON格式或Markdown格式,便于后续处理和展示。
  • 文本段落解析:准确识别和提取文档中的文本内容,支持多语言(如中文和英文)。
  • 公式识别:支持复杂公式的识别,包括行内公式和块级公式,输出LaTeX格式。
  • 表格解析:支持解析复杂的表格结构,提取单元格内容并生成HTML格式的表格。
  • 轻量级架构:模型参数量为322M,体积小,运行速度快,适合在资源受限的环境中使用。
  • 支持多种输入格式:支持处理多种类型的文档图像,包括学术论文、商业报告、技术文档等。
  • 多样化的输出格式:支持将解析结果输出为JSON、Markdown、HTML等多种格式,便于与不同系统集成。

Dolphin的技术原理

  • 页面级布局分析:用Swin Transformer对输入的文档图像进行编码,提取视觉特征。基于解码器生成文档元素序列,每个元素包含其类别(如标题、表格、图表等)和坐标位置。这一阶段的目标是按照自然阅读顺序生成结构化的布局信息。
  • 元素级内容解析:根据第一阶段生成的布局信息,从原始图像中裁剪出每个元素的局部视图。用特定的提示词(prompts),对每个元素进行并行内容解析。例如,表格用专门的提示词解析HTML格式,公式和文本段落共享提示词解析LaTeX格式。解码器根据裁剪后的元素图像和提示词,生成最终的解析内容。

Dolphin的项目地址

  • GitHub仓库:http://github.com/bytedance/Dolphin
  • HuggingFace模型库:http://huggingface.co/ByteDance/Dolphin
  • arXiv技术论文:http://arxiv.org/pdf/2505.14059
  • 在线体验Demo:http://115.190.42.15:8888/dolphin/

Dolphin的应用场景

  • 学术研究:解析论文中的文本、公式和图表,助力文献整理和数据分析。
  • 商业办公:提取商业文档的关键信息,便于合同审查和报告生成。
  • 教育领域:将教材和试卷数字化,支持在线学习和多语言教学。
  • 技术开发:解析技术文档,方便代码管理和技术交流。
  • 日常应用:快速处理日常文档,提高办公效率。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

411

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

533

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

309

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

74

2025.09.10

html版权符号
html版权符号

html版权符号是“©”,可以在html源文件中直接输入或者从word中复制粘贴过来,php中文网还为大家带来html的相关下载资源、相关课程以及相关文章等内容,供大家免费下载使用。

609

2023.06.14

html在线编辑器
html在线编辑器

html在线编辑器是用于在线编辑的工具,编辑的内容是基于HTML的文档。它经常被应用于留言板留言、论坛发贴、Blog编写日志或等需要用户输入普通HTML的地方,是Web应用的常用模块之一。php中文网为大家带来了html在线编辑器的相关教程、以及相关文章等内容,供大家免费下载使用。

646

2023.06.21

html网页制作
html网页制作

html网页制作是指使用超文本标记语言来设计和创建网页的过程,html是一种标记语言,它使用标记来描述文档结构和语义,并定义了网页中的各种元素和内容的呈现方式。本专题为大家提供html网页制作的相关的文章、下载、课程内容,供大家免费下载体验。

466

2023.07.31

html空格
html空格

html空格是一种用于在网页中添加间隔和对齐文本的特殊字符,被用于在网页中插入额外的空间,以改变元素之间的排列和对齐方式。本专题为大家提供html空格的相关的文章、下载、课程内容,供大家免费下载体验。

245

2023.08.01

Golang gRPC 服务开发与Protobuf实战
Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践,涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC(Unary/Server/Client/Bidirectional)、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例,帮助学习者掌握 使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系,适用于微服务与内部系统通信场景。

8

2026.01.15

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 2.7万人学习

Git版本控制工具
Git版本控制工具

共8课时 | 1.5万人学习

Git中文开发手册
Git中文开发手册

共0课时 | 0人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号