【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版

P粉084495128

发布时间：2025-07-17 10:11:47

584人浏览过

来源于php中文网

原创

技术方向：表格文字检测，表格结构重建使用了Paddlex的detection；引用了Paddle segmentation 的Unet结构，自定义训练同花顺-文档图片表格结构识别算法方。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网

1、比赛介绍

整体背景

表格作为一种高效的数据组织与展现方法被广泛应用，已成为各类文档中最常见的页面对象。目前很大一部分文档以图片的形式存在，无法直接获取表格信息。人工还原表格既费时又容易出错，因此如何自动并准确地从文档图片中识别出表格成为一个亟待解决的问题。但由于表格大小、种类与样式的复杂多样（例如表格中存在不同的背景填充、不同的行列合并方法、不同的分割线类型等），导致表格识别一直是文档识别领域的研究难点。

本赛题专注于表格结构识别，为选手提供了已标注的表格图片数据，需要选手通过深度学习的方法，识别出表格结构并输出。

赛题任务

选手需要训练模型并准确还原出表格结构信息。

训练数据主要包括原始图片及对应的ground truth，ground truth内包含表格位置信息和单元格信息。选手可以直接使用ground truth内的表格位置信息，也可以使用自己预测的表格位置信息。在得到表格区域的基础上，选手需要将表格的结构识别出来，输出单元格的行列结构信息及单元格内的文字位置信息。

数据说明

数据量

640张训练集、106张测试集A、108张测试集B及其对应的ground truth（xml文件）

数据来源

各大公司财报的扫描件图片、评级报告图片

ground truth字段说明：

table：表格，包含表格位置信息及该表格内的单元格信息。points字段为“x0, y0 x1, y1 x2,y2 x3, y3”格式，表示表格区域的四个角点，角点顺序不固定
cell：单元格，包含行列信息及位置信息

start_col、end_col、start_row、end_row：单元格所处的行列信息

points：单元格内文本的位置信息，格式为“x0, y0 x1, y1 x2,y2 x3, y3”，表示文本区域的四个角点，角点顺序不固定；当单元格内存在多行文本时，取所有文本的最小外包矩形作为文本区域

ground truth示例如下：

【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网

评测标准

a. 总体概括评测标准

单元格F1

b. 评价指标计算流程

计算预测的表格内的单元格的相邻关系，假设所有预测的表格内的单元格相邻关系的总数为S

参考论文：

《A Methodology for Evaluating Algorithms for Table Understanding in PDF Documents》

将预测的表格区域与ground truth中的表格区域进行映射，取IOU大于0.8的表格区域作为预测正确的表格区域，其余作为预测错误的表格区域
在正确的表格区域内，将预测的单元格内的文本区域与ground truth中的单元格文本区域进行映射，取IOU的阈值为0.5和0.6；当单元格内存在多行文本时，所有文本的最小外包矩形作为文本区域，参考下图：

2、官方baseline介绍

导航链接

思路简介：

分为两个模型，一个为文字定位模型，另一个是表格结构分析模型。
文字定位方案是CRAFT: Character-Region Awareness For Text detection，论文，采用VGG16做文字定位。原方案中直接拿来用，全图检测文字，在此不做过多描述。
表格可以通过xml文件获取边界框，不需要检测
表格结构分析基于unet语义分割模型来做，生成两个图层，分别是表格的横向线和纵向线（有线表格和无线表格都按照有线处理）。拼接进行展示，从左到右依次是横向线、纵向线、表格图像，效果如下：

【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网

分割完成后，表格被横纵线条阶段，用opencv找矩形，还原行列结构，形成cell列表，示意图如下：

【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网

以cell为单位，遍历每个文字对象的中心点是否落在本cell中，若中心点在cell中，将四个角点坐标都加入列表L，遍历完成后，取L中所有点的最小外接矩形作为文本框的坐标框

3、比赛解题思路的探讨

表格结构化这一任务，在研究领域依然充满了挑战，并未出现一个算法或一套框架一统江湖。结合本比赛，简要进行难点剖析，提出改进思路当前所有表格结构化方法大体都可分为三步走：

提取行列特征
提取文字内容
重构表格结构

【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网

在此框架下，具有不同的技术方案，例如：

百度OCR表格识别的技术方案：单行文本检测-DB，单行文本识别-CRNN，表格结构和cell坐标预测-RARE

ChartGen

AI快速生成专业数据图表

下载

【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网

海康威视OCR/表格识别方案：图像经过CNN提取特征后分成两路，一路类似于Mask RCNN的形式用来检测非空单元格叫LPMA，另一个头全局学习整张图上的非空单元格的水平和垂直对齐的soft mask叫GPMA

【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网

腾讯的解决方案：Unet做语义分割，线段合并，矫正等后处理，文字识别，文字定位，对齐【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网

GFTE：Graph-based Financial Table Extraction图神经网络方案：单元格上构建无向图G = ；使用基于GCN的算法来预测相邻关系，包括垂直和水平关系来预测【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网

本解决方案属于基于语义分割的模式进行预测

4、赛题难点分析与应对策略

数据标签获取

通过手绘的方式来获取；

优点：准确；缺点：耗时 1300+表格，标注需30小时+

代码方式获取，例如官方文档中mask逻辑：

（1）获取未被合并的单元格，提取其中文字坐标框

（2）将每一列所有坐标框形成一个集合，求其外接矩形

（3）所得矩形之间的区域，划分为表格线

优点：快速；缺点：对错切、错标注、整行整列合并的情况，无法正常生成标注，如下图第一列漏标：【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网

无法得到优质的样本库，漏标多，仅能处理无单元格合并的简单表格

语义分割网络与本任务目标存在差距

表格结构化，目标是得到包含行列的结构化数据，而语义分割的结果是基于像素的栅格数据，是非结构化的，语义分割的结果转换为表格结构存在着语义鸿沟，简单的形状提取难以很好的完成此任务。例如下图：【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网

【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网

在识别情况尚可的情况下，左侧小块的误识别区域将对整个表格结构产生极大的影像（五列变为六列），而这种情况是无法被处理的

应对策略：

人工数据清洗

对数据进行可视化后人工判读，花费三小时，清洗出以下有问题的数据：

【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网

确保子样本库正确，迁移到大样本库中

先把简单的表格找出来，形成高质量的子样本库，训练模型1

模型1预测复杂结构的表格，生成伪标签，与原代码生成标签叠加，补漏

采用二次识别的模式剔除误识别区域；或探索图神经网络在表格误识别中的应用

本人才疏学浅，GCN没做过=。=

5、本项目所做的工作

替换CRAFT，使用ppyplov2定位文字
自定义数据集，paddlesegAPI实现Une-tattention实现语义分割，代替pytorch版本
数据预处理等工作，可完整的实现从数据到提交文件的全流程

6、代码实现

准备环境、数据、训练预测等代码代码简洁，已配置好，一键运行

In [ ]

# 解压数据集，data/data133551/data.zip为原版数据集，已划分为训练集验证集，后期训练可再调整!unzip -oq data/data133551/data.zip -d work/# data/data133260/data.zip为预处理数据集，只有表格数据，已转化为icdar格式，可直接用paddle——ocr套件训练

In [ ]

# 安装环境!pip install paddleseg
!pip install paddlex
%cd work/

In [ ]

# 训练分割模型!python seg_train.py

预测生成提交结果

使用预训练的目标检测模型与分割模型完成预测（训练过程未包含在项目）

预训练模型目标检测效果

所有步骤都集成在pre.py中

运行pre.py，结果保存在opt中

Open Interpreter— 开源AI终端助手，本地环境执行代码

Python AI Agent构建终极指南：告别复杂框架，拥抱纯粹代码

Google Colab Python数据分析：Gemini AI教程

从零开始构建AI代码助手：Python单文件教程

ChatGPT+Midjourney联动工作流：从文案到配图一站式教程

相关专题

pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法：1. 使用在线转换器；2. 使用桌面软件（如 adobe acrobat、itext）；3. 使用命令行工具（如 pdftoxml）。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1878

2024.04.01

xml怎么变成word

步骤：1. 导入 xml 文件；2. 选择 xml 结构；3. 映射 xml 元素到 word 元素；4. 生成 word 文档。提示：确保 xml 文件结构良好，并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容，可以阅读本专题下面的文章。

2085

2024.08.01

xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言，标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容，可阅读本专题下面的相关文章。

998

2024.11.28

页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章，大家可以免费体验。

400

2023.08.14

pytorch是干嘛的

pytorch是一个基于python的深度学习框架，提供以下主要功能：动态图计算，提供灵活性。强大的张量操作，实现高效处理。自动微分，简化梯度计算。预构建的神经网络模块，简化模型构建。各种优化器，用于性能优化。想了解更多pytorch的相关内容，可以阅读本专题下面的文章。

431

2024.05.29

Python AI机器学习PyTorch教程_Python怎么用PyTorch和TensorFlow做机器学习

PyTorch 是一种用于构建深度学习模型的功能完备框架，是一种通常用于图像识别和语言处理等应用程序的机器学习。使用Python 编写，因此对于大多数机器学习开发者而言，学习和使用起来相对简单。 PyTorch 的独特之处在于，它完全支持GPU，并且使用反向模式自动微分技术，因此可以动态修改计算图形。

2025.12.22

Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践，涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC（Unary/Server/Client/Bidirectional）、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例，帮助学习者掌握使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系，适用于微服务与内部系统通信场景。

2026.01.15