一、摘要
论文提出MinerU一种基于多模块解析策略的开源文档内容提取工具,旨在解决现有方法在多样化文档(如学术论文、教科书、财务报表等)中因复杂布局、公式、表格等元素导致的提取精度不足问题。
核心贡献
创新框架:
结合PDF-Extract-Kit模型库(布局检测、公式识别、表格解析等)与精细化预处理/后处理规则,支持中英文文档的文本、公式、表格等多元素精准提取。
输出为Markdown或JSON格式,适配下游任务需求。
技术优势:
布局泛化能力:通过多样化数据训练,支持单双栏、竖排文本等11类复杂文档(图2)。
噪声过滤:自动剔除页眉、页脚等无关区域。
高效推理:基于规则与模型的协同优化,显著降低端到端MLLM的高计算成本。
实验结果:
布局检测mAP达77.6%(学术论文)与67.9%(教科书),公式识别指标(CDM=0.968)媲美商业软件MathPix,全面超越现有开源模型(表3-5)。
二、背景介绍
随着大语言模型(LLMs)和检索增强生成(RAG)技术的快速发展,文档内容提取逐渐成为推动人工智能落地的核心任务之一。然而,现有技术在处理多样化、复杂结构的文档时仍面临显著挑战。本文的Introduction部分从技术需求、现有方法局限性、创新解决方案三个维度展开论述,系统性地阐释了MinerU的设计动机与核心价值。
2.1、技术背景:LLMs与RAG驱动的高质量文档需求
LLMs的数据依赖与瓶颈
ChatGPT的启示:2022年底ChatGPT的发布标志着LLMs进入大规模应用阶段,其成功依赖于海量高质量训练数据。然而,随着模型规模扩大,互联网网页数据的质量与多样性逐渐成为瓶颈。
文档数据的价值:学术论文、教科书、研究报告等文档蕴含结构化知识,是LLMs进阶训练的关键资源。例如,数学公式、表格数据、跨页段落等内容的精准提取,直接影响模型在科学、金融等领域的推理能力。
RAG技术的兴起与挑战
检索增强生成(RAG):2023年,RAG技术通过动态检索外部知识增强LLMs的生成效果,成为行业热点。其核心在于从文档中快速提取结构化信息,构建实时更新的知识库。
现实需求:企业级场景(如法律合同解析、医疗报告生成)要求工具能够处理多样化文档类型(单栏/双栏、扫描/文本PDF、竖排古籍等),并保证高精度、低成本、强泛化性。
2.2、现有技术局限性分析
论文从技术原理、适用场景、核心缺陷三个层面对四种主流方法进行了系统性对比,揭示了当前工具链的共性痛点:
1. OCR文本提取
技术原理:直接对文档图像进行光学字符识别(OCR),依赖模型(如Tesseract、PaddleOCR)逐像素解析文本。
局限性:
噪声敏感:图像、表格、公式等非文本区域易被误识别为乱码(如将公式“(E=mc^2)”解析为“E_me2”)。
结构丢失:无法区分标题、正文、脚注,导致输出为无序文本流,难以适配下游任务。
2. 库解析(如PyMuPDF)
技术原理:解析PDF内部文本流(适用于非扫描文档),跳过OCR直接提取字符与坐标。
局限性:
元素缺失:忽略公式、表格、图像等非文本对象,仅输出纯文字内容。
格式混乱:跨栏、跨页文本的阅读顺序错误(如将双栏论文按“Z”形拼接),导致语义断裂。
3. 多模块解析
技术原理:分阶段处理——先通过布局检测模型(如LayoutLMv3)划分区域,再调用专用模型(OCR、公式识别等)逐块解析。
局限性:
泛化性差:现有开源工具(如DocXchain、Surya)的训练数据集中于学术论文,对教材、试卷等复杂布局文档的检测精度低(mAP<50%)。
流程碎片化:不同模块(布局、公式、表格)的协同效率低,后处理规则简单,难以解决边界框重叠、跨页段落合并等问题。
三、Mineru框架
MinerU框架是一个模块化、流程化的文档解析系统,旨在通过多阶段协同处理实现复杂文档的高精度结构化提取。其核心设计分为四个阶段:预处理→内容解析→内容后处理→格式转换,各阶段紧密衔接,结合模型推理与规则优化,显著提升泛化性与效率。以下是各模块的详细解析:
3.1、文档预处理(Document Preprocessing)
目标:筛选可处理文档,提取关键元数据,为后续解析提供基础信息。
文件过滤:
格式校验:排除非PDF文件(如Word、图片)。
安全性检查:检测加密或密码保护文档,终止处理并提示用户。
元数据提取:
语言识别:仅支持中英文文档,需用户指定语言参数以优化OCR效果。
扫描类型判断:
扫描PDF:通过图像区域占比(>95%页面为图片)和文本长度(每页平均字符数接近0)识别。
文本PDF:直接通过PyMuPDF提取原生文本流。
页面维度:记录每页的宽度与高度,辅助布局分析。
乱码检测:
识别文本型PDF中的编码错误(如字符映射缺失),触发OCR流程替代直接解析。
3.2、文档内容解析(Document Content Parsing)
核心阶段:调用PDF-Extract-Kit模型库,分层次解析文档元素,包括布局、公式、表格及文本。
1. 布局分析(Layout Analysis)
模型架构:基于LayoutLMv3微调,支持11类区域检测(标题、正文、表格、公式等)。
数据工程:
多样化数据:收集学术论文、教材、财务报表等,通过视觉特征聚类采样,构建21K标注数据集。
迭代训练:根据验证集反馈动态调整数据采样权重(如对低分类别增加训练比例)。
输出:页面元素的位置边界框(BBox)与类别标签(图2)。
2. 公式处理(Formula Detection & Recognition)
检测模型:
YOLOv8微调:标注24,157行内公式与1,829独立公式,AP50达87.7%(表4)。
难点突破:区分易混淆内容(如“50%”与公式符号)。
识别模型:
UniMERNet:自研模型,支持印刷体、手写体公式,在UniMER-1M数据集上训练,CDM指标达0.968(表5),接近MathPix商业工具。
3. 表格解析(Table Recognition)
双模型协同:
TableMaster:分步骤处理表格结构识别、文本检测与单元格匹配,适用于简单表格。
StructEqTable:端到端模型,支持复杂合并单元格与跨页表格,生成HTML/LaTeX代码。
数据源:基于PubTabNet(通用表格)与DocGenome(科学文档)数据集训练。
4. OCR优化(Text Recognition)
分区域OCR:
布局引导:仅对文本区域(标题、段落)调用PaddleOCR,避免多栏文档的顺序错误(图3)。
公式掩码:在OCR前屏蔽公式区域,识别后插入LaTeX表达式,解决乱码问题(图4)。
3.3、文档后处理(Document Post-Processing)
目标:优化模型输出的粗粒度结果,解决元素冲突与顺序问题。
边界框(BBox)处理:
去重叠:
包含关系:删除嵌套在图像、表格内的无效文本框。
部分重叠:垂直或水平收缩文本框,保留内容完整性(图5)。
跨页段落合并:根据语义连贯性拼接被分页符截断的段落。
阅读顺序排序:
分块策略:将页面按“从上到下、从左到右”划分为多个区域,每区域仅含单列内容。
排序算法:按区域位置(Y轴优先,X轴次之)确定最终输出顺序(图6)。
噪声过滤:
自动剔除页眉、页脚、页码、侧边注释等非主体内容。
3.4、格式转换(Format Conversion)
目标:将结构化数据转换为用户指定格式,适配下游任务。
中间结构(Intermediate JSON):
字段设计:
pdf_info.para_blocks
:有序数组,存储文本、公式、表格等内容块及其位置。
_parse_type
:标记内容来源(OCR或原生文本)。
_version_name
:记录处理版本,便于追溯问题(表1)。
输出格式:
Markdown:保留标题层级、列表、代码块等富文本格式,图像与表格以链接或LaTeX嵌入。
自定义JSON:支持按需裁剪元素(如仅提取公式或表格),适配API接口调用。
扩展性:
开源代码支持用户自定义输出模板(如XML、CSV),满足垂直场景需求。
四、MinerU质量评估详细总结
MinerU的质量评估体系从模型模块性能验证与端到端结果分析两个维度展开,通过构建多样化评测数据集、对比主流开源模型,并辅以可视化案例分析,全面验证了其在复杂文档解析任务中的高精度、强泛化性与实用性。以下是核心评估内容与结论的详细分析:
4.1、评估数据集构建
为模拟真实场景中的文档多样性,MinerU团队构建了包含11类文档的评测集(表2),涵盖以下关键特性:
布局多样性:单栏、双栏、竖排(历史文献)、混合图文(教科书)。
内容复杂性:
公式:短行内公式(如“(E=mc^2)”)与复杂独立公式(矩阵、积分)。
表格:合并单元格、跨页表格(财务报表)、嵌套表格(研究报告中表格内嵌子表)。
图像:高分辨率插图(教科书)、带背景的PPT截图。
文档来源:学术论文(arXiv)、企业报告、教育材料(试卷)、古籍等,确保数据分布广泛。
该数据集不仅用于端到端结果验证,还被细分为布局检测、公式检测等子任务专用评测集,支持模块化性能分析。
4.2、核心模块性能评估
MinerU的核心竞争力依赖于PDF-Extract-Kit模型库中多个模块的协同,本节重点对比了布局检测、公式检测与识别三大模块的性能。
1. 布局检测(Layout Detection)
对比模型:DocXchain、Surya、360LayoutAnalysis系列、自研LayoutLMv3微调模型。
评测指标:
mAP(平均精度均值):综合反映多类别检测精度。
AP50(IoU=0.5时的平均精度):宽松阈值下的检测能力。
AR50(IoU=0.5时的平均召回率):漏检率评估。
结论:
MinerU的模型在学术论文与教科书场景下,mAP分别达到77.6%与67.9%,较第二名(DocXchain)提升约25%。
AP50(93.3%)与AR50(95.5%)表明模型在宽松阈值下几乎无漏检,适用于对完整性要求高的场景(如法律合同解析)。
2. 公式检测(Formula Detection)
对比模型:Pix2Text-MFD(开源)、自研YOLOv8微调模型。
评测指标:
AP50:检测框与标注框IoU≥0.5时的精度。
AR50:IoU≥0.5时的召回率。
结论:
在学术论文场景中,MinerU的AP50达87.7%,较Pix2Text-MFD提升45.6%。
多源文档(如教材、报告)的AP50为82.4%,证明模型对非论文类文档的泛化能力。
3. 公式识别(Formula Recognition)
对比模型:Pix2tex、Textfy、MathPix(商业软件)、自研UniMERNet。
评测指标:
CDM(兼容差异度量):基于树编辑距离的评估指标,抗公式表达多样性干扰。
ExpRate(完全匹配率):预测与标注公式完全一致的比例。
BLEU:字符级相似度,因公式结构多样性限制其可靠性。
结论:
UniMERNet的CDM指标达0.811,远超开源模型(Textfy为0.495),接近MathPix的0.951。
ExpRate(47.99%)表明近半数公式可完全准确识别,满足科学文档的高标准需求。
4.3、端到端结果可视化分析
通过实际文档的处理案例(图7),MinerU展示了从布局检测→内容解析→格式输出的全流程效果:
布局检测可视化:
准确区分文本段落、表格、公式、图像及其题注,无重叠或遗漏(如图7左列)。
对竖排古籍、双栏教材等复杂布局的检测误差率低于5%。
内容解析效果:
公式:LaTeX表达式完整嵌入文本,无乱码或缺失符号。
表格:跨页表格按语义合并,生成结构化的HTML代码,保留单元格合并信息。
文本顺序:多栏文档按“从左到右、从上到下”正确排序,无跳行或错位。
输出格式一致性:
Markdown文件保留原文档的标题层级、列表与代码块格式,图像与表格以链接形式引用。
JSON输出包含完整的坐标、内容类型与顺序信息,适配自动化知识库构建。
4.4、质量评估结论
精度优势:
布局检测、公式识别等核心模块性能全面超越开源方案,部分指标(如CDM)接近商业软件。
端到端结果在多样化文档中保持高一致性,错误率低于行业平均水平(<10%)。
泛化能力:
模型在11类文档上的稳定表现,证明其数据多样性驱动训练策略的有效性。
对噪声(扫描件模糊、低分辨率图像)的鲁棒性显著优于端到端MLLM方案。
实用价值:
处理速度(平均30秒/文档)与成本(GPU资源占用低)适合企业级批量处理。
输出格式灵活,可直接对接LLMs训练流水线或RAG系统,减少二次开发成本。
五、未来优化方向
尽管MinerU已展现显著优势,论文指出以下待改进领域:
系统性基准缺失:需建立涵盖更多文档类型(如医疗报告、法律文书)的标准化评测集。
长文档处理效率:超长PDF(>100页)的解析耗时仍需优化。
多语言支持:当前仅支持中英文,扩展至日语、阿拉伯语等语言是下一步重点。
六、如何使用Mineru
当前Mineru支持客户端,但是接下来介绍下如何本地化使用
具体详细的可以参考官方文档:README_Windows_CUDA_Acceleration
注意:显卡驱动默认已经安装好了,此处不涉及显卡驱动的安装。
如何使用api调用参考:Windows系统下MinerU的CUDA加速配置指南
暂无评论内容