在日常文档处理中,我们常常遇到一个棘手问题:传统OCR工具能够提取文本,却无法理解文档的深层结构。水印、签名、表格、公式等元素混杂在一起,输出结果往往令人失望。

今天要给大家介绍的Nanonets-OCR2不仅可以将文档转换为结构化的 Markdown,还可以利用智能 内容识别、语义标记和上下文感知视觉问答,能够更深入地 理解和更准确地解释复杂文档。
功能特点
LaTeX 方程识别:自动将数学方程式和公式转换为格式正确的 LaTeX 语法。内联数学表达式转换为 LaTeX 内联方程,而显示的方程则转换为 LaTeX 显示方程。页码在 <page_number> 标签中预测。

智能图像描述:使用结构化标记描述文档中的图像,使其易于 LLM 处理。如果 图标题存在,然后将其用作描述,否则模型将生成 描述。该模型可以描述单个或多个图像(徽标、图表、图形、二维码等) 就其内容、风格和上下文而言。该模型预测图像描述 <img> 标签。

签名检测和隔离:识别签名并将其与文档中的其他文本隔离开来,这对法律和业务至关重大 文档处理。该模型预测 <signature> 标记中的签名文本。如果 signature 不可读,则模型会将 <signature>signature<signature> 返回给 标记为已签名。


水印提取:与签名检测类似,该模型可以检测和提取文档中的水印文本。这 模型预测<watermark>标签内的水印文本。该模型在低电平下表现良好 高质量图像。

智能复选框处理:将表单复选框和单选按钮转换为标准化的 Unicode 符号,以实现一致性 加工。该模型预测 <checkbox> 标记中的复选框状态。


复杂表提取:从文档中提取复杂表并将其转换为 Markdown 和 html 表。

视觉问答:该模型旨在直接提供答案(如果它存在于文档中);否则,它会以“未提及”进行响应。

应用场景
财务与会计人员:自动处理大量发票、收据、银行对账单,实现一键报销、自动对账。
物流与供应链管理:自动识别提货单、运单、装箱单信息,实时更新货物追踪状态。
人力资源部门:快速录入员工简历信息、身份证、银行卡资料,提升入职办理效率。
法律与合规部门:从海量合同中快速提取关键条款、日期和金额,进行风险分析和归档。
零售与电商:自动化处理采购订单、供应商发票,管理库存和结算。
开源地址:
https://huggingface.co/nanonets/Nanonets-OCR2-3B
#AI开源项目推荐##github##AI技术##OCR模型


















- 最新
- 最热
只看作者