表格结构识别技术发展调研报告：从传统方法到大模型时代

1 引言

表格结构识别是指从文档图像中识别并提取表格的逻辑和物理结构，包括行列位置、单元格关系以及跨行跨列等复杂排版元素的技术。随着数字化转型的深入，表格结构识别已成为文档智能分析领域的核心环节，广泛应用于金融票据处理、科学文献分析、企业报表数字化等众多场景。表格作为紧凑存储和展现数据的载体，蕴含着大量高价值信息，对其的高效识别与理解具有重要的应用价值与研究意义。

然而，表格结构识别面临着诸多挑战：表格样式多样（无线表、合并单元格、嵌套表等）、图像质量参差不齐、布局结构复杂多变等因素使得传统方法难以适应实际应用需求。本报告将系统梳理表格结构识别技术的发展脉络，深入分析各阶段的代表性技术及其原理，以期为后续研究提供清晰的技术路径参考。

2 技术发展脉络

表格结构识别技术大致经历了三个主要发展阶段，其演进过程如下表所示：

表：表格结构识别技术发展阶段

发展阶段	时间段	技术范式	代表性方法	主要特点
早期传统方法	2000年以前	规则与启发式方法	基于投影特征、视觉线索的方法	依赖先验规则，对简单表格有效，泛化能力差
深度学习方法	2010-2020年	深度学习模型	GCN、CNN+Attention、ResNet+FPN等	自动特征学习，适应复杂结构，泛化能力较强
大模型时代	2020年至今	大规模预训练模型	TableGPT、Vision Transformer等	端到端统一处理，上下文理解，多任务协同

图：表格结构识别技术演进时序图

从技术演进来看，表格结构识别实现了从”规则驱动“到”数据驱动“再到”认知理解“的转变，每一阶段的进步都显著提升了模型对复杂表格结构的适应能力和识别精度。下面我们将深入分析每个发展阶段的技术原理与代表性方法。

3 早期传统方法的技术原理

早期表格结构识别方法主要依赖于人工设计的规则和图像处理技术，其核心思想是通过分析表格图像的低层视觉特征来推断结构信息。这些方法在规则表格上表现良好，但泛化能力有限。

3.1 基于规则和启发式的方法

此类方法利用表格线的几何特征和投影规律来识别行列结构：

投影分析法：通过计算图像在水平和垂直方向上的像素投影轮廓，利用波峰波谷分布确定行列边界。空白单元格通过局部投影最小值区域识别，合并单元格则通过投影连续性中断检测。

视觉线索分析法：利用表格线（栅格线）作为分割依据，通过霍夫变换、线检测算子提取直线网络，再分析线框交叉点形成单元格。对于无线表，则依赖背景阴影、对齐方式和文本布局等视觉线索进行推理。

3.2 早期机器学习方法

随着统计学习的发展，研究者开始采用传统机器学习模型增强表格识别能力：

特征工程方法：提取图像的纹理特征（LBP、Haralick）、形状特征（HOG）和布局特征（投影直方图、空白区域分布）作为输入。

分类器设计：采用支持向量机(SVM)、隐马尔可夫模型(HMM) 等算法对表格区域进行分类和结构解析。这些方法通过概率建模对字符形态和上下文进行建模，但在复杂版面、多语种及手写体场景下性能受限。

传统方法在固定模板、高质量扫描件等理想环境下能达到较高准确率，但面对布局多样性、图像退化和复杂单元格结构时，基于手工设计的规则系统显得力不从心，催生了基于深度学习的新方法。

4 深度学习方法的技术原理

深度学习技术的兴起彻底改变了表格结构识别的技术路径，通过端到端的特征学习，模型能够自动捕捉表格的深层结构特征，显著提升了对于合并单元格、嵌套表等复杂结构的识别能力。

4.1 基于目标检测的方法

此类方法将表格结构识别视为单元格检测问题，借鉴通用目标检测架构（如Faster R-CNN、YOLO系列）定位表格中的各个单元格：

ResNet+FPN双分支网络：此类方法使用ResNet+FPN作为主干网络，设计两个独立分支分别预测单元格的空间位置和逻辑邻接关系。其中一个分支通过边界框回归获取单元格物理坐标，另一分支则利用矩阵分解代替注意力机制，重整全局特征以建模单元格间逻辑关系。

轻量级CPU网络与注意力机制：改进SLANet的方法利用轻量级卷积神经网络并引入注意力机制，增强网络泛化和解释能力。通过轻量级高低层特征融合模块提取多尺度特征，再通过特征解码模块对齐结构与位置信息，显著提升了多行多列合并、空白、嵌套单元格等复杂表结构的识别能力。

4.2 基于序列建模的方法

这类方法将表格结构识别视为序列生成任务，借鉴自然语言处理中的编码器-解码器架构：

Encoder-Dual-Decoder(EDD)：采用共享编码器提取图像特征，两个独立解码器分别生成行列结构序列和单元格内容序列，通过联合训练优化整体识别精度。

TableMaster模型：使用Transformer解码器自回归地预测HTML或LaTeX等标记语言，隐式学习表格结构语法。此类方法将表格表示为标记序列，通过序列到序列学习直接输出结构化结果。

4.3 基于图卷积网络的方法

图卷积网络(GCN)方法将表格建模为图结构数据，有效捕获单元格间复杂关系：

空间位置与逻辑邻接双分支GCN：如提出的方法，将单元格视为图节点，构建两种邻接矩阵：空间邻接矩阵（基于单元格坐标重叠关系）和逻辑邻接矩阵（基于行列对齐关系）。通过图卷积操作迭代聚合邻居节点信息，精确推断单元格属性和关系，特别适合识别跨行跨列单元格。

图注意力网络：在GCN基础上引入注意力机制，差异化处理不同邻居节点的重要性，提升对噪声和变形表格的鲁棒性。

4.4 基于Transformer架构的方法

纯Transformer架构在表格结构识别中展现出强大性能，尤其在建模长距离依赖和全局上下文方面：

Vision-Transformer-based Autoencoder：提出了一种基于Vision Transformer的自编码器模型，通过多阶段管道预测单元格区域，从中推断准确的单元格边界（包括跨行列的合并单元格）。该方法对Masked Autoencoder(MAE)进行改进，通过掩码图像建模预训练，使模型能处理缺乏初始结构信息的复杂表格。

编码器-解码器Vision Transformer：该方法使用ViT作为编码器提取图像块特征，采用Transformer解码器自回归预测结构标记，在公开基准测试中实现了最先进的性能，特别是对于布局复杂的表格。

深度学习方法的共同优势在于能够自动学习特征表示，减少对人工规则的依赖，通过端到端训练优化整体性能。然而，这些方法通常需要大量标注数据，且模型复杂度较高，计算资源需求大。

5 大模型时代的技术原理

随着多模态大语言模型的迅速发展，表格结构识别进入了统一化基础模型时代，致力于通过单一模型解决多种表格理解任务，实现从”感知”到”认知”的跨越。

5.1 统一化基础模型架构

此类方法的核心是构建通用多模态大语言模型作为智能基座，实现表格检测、结构识别、关键信息提取和视觉问答的统一处理：

TableGPT框架：提出了表格数据结构化解析与理解统一基础模型，采用”数据合成+课程学习+策略优化“的技术框架。其中，数据合成弥补公开数据与现有数据之间的差异，课程学习逐步提高模型的视觉结构化能力，而策略优化则通过监督微调、强化学习等技术提高模型的识别能力。

多模态融合架构：模型层作为整个框架的核心，具备表格检测、表格识别、关键信息提取、视觉问答等一系列能力，使用单一模型即可解决多项不同任务，无需使用多个专用模型。调度智能体作为指挥中枢，负责解析用户查询并调用外部工具库实现复杂需求。