MinerU提取数学试卷：公式+图表联合识别实战案例

本文介绍了如何在星图GPU平台上自动化部署MinerU 2.5-1.2B 深度学习 PDF 提取镜像，实现对数学试卷中公式与图表的联合识别。该镜像可精准提取复杂排版的PDF内容，适用于教育领域中的试卷数字化、学术文献处理等典型场景，大幅提升文档结构化效率。

笨爪

995人浏览 · 2026-01-22 10:02:23

笨爪 · 2026-01-22 10:02:23 发布

MinerU提取数学试卷：公式+图表联合识别实战案例

1. 数学试卷数字化的痛点与突破

你有没有遇到过这样的情况：手头有一份重要的数学试卷，想把它转成电子版，但里面密密麻麻的公式、复杂的几何图、还有表格混排，用普通工具一转，格式全乱了？复制出来的公式变成一堆乱码，图表位置错位，甚至整页内容都被错误地拼在一起。

这正是传统PDF提取工具的软肋——它们对纯文本还行，可一旦碰到多栏排版、数学公式、图表混合的复杂文档，就束手无策了。尤其是数学类资料，公式的结构语义一旦丢失，整段内容就失去了意义。

而今天我们要实战的，正是为解决这一难题而生的方案：MinerU 2.5-1.2B 深度学习 PDF 提取镜像。它不仅能精准识别文字和布局，还能把 LaTeX 公式原样还原，连带图表一起完整提取，最终输出结构清晰、可编辑的 Markdown 文件。

这不是简单的 OCR，而是一次视觉多模态理解的落地实践。我们将在本地一键部署，直接处理一份真实的数学试卷，看看它是如何“看懂”一张满是符号和图形的纸的。

2. 镜像环境：开箱即用的多模态推理系统

2.1 为什么说它是“真正开箱即用”？

市面上很多AI模型虽然强大，但光是配置环境就能劝退一大片人：装CUDA、配Python版本、下载权重、解决依赖冲突……每一步都可能卡住。

而这个镜像不同。它已经深度预装了：

GLM-4V-9B 视觉语言模型权重
MinerU 2.5 (2509-1.2B) 核心模型
所有依赖库（包括 magic-pdf[full]、LaTeX_OCR、OCR增强组件）
CUDA驱动支持与NVIDIA GPU加速配置

换句话说，你拿到的就是一个完整运行态的AI文档理解系统。不需要再下载任何东西，也不用担心环境报错。只要启动镜像，三步命令，就能开始提取。

2.2 系统默认环境参数

项目	配置
Python 版本	3.10（Conda环境已激活）
核心包	`mineru`, `magic-pdf[full]`
主模型	MinerU2.5-2509-1.2B
辅助模型	PDF-Extract-Kit-1.0（用于OCR增强）
硬件支持	NVIDIA GPU + CUDA 加速
图像库依赖	`libgl1`, `libglib2.0-0` 等

这些底层细节你几乎不用关心，因为一切都已经调通。你可以把注意力完全放在输入文档的质量和输出结果的准确性上。

3. 实战操作：三步提取数学试卷

我们现在就来走一遍完整的流程。假设你已经进入镜像环境，默认路径是 /root/workspace。

3.1 第一步：切换到工作目录

cd ..
cd MinerU2.5

这里我们从默认的 workspace 目录退一级，进入预置的 MinerU2.5 文件夹。所有测试文件和配置都在这个目录下准备好了。

3.2 第二步：执行提取命令

镜像中已经内置了一份名为 test.pdf 的示例数学试卷，包含多栏排版、大量公式、函数图像和表格。我们直接运行提取指令：

mineru -p test.pdf -o ./output --task doc

参数说明：

-p test.pdf：指定输入PDF文件
-o ./output：指定输出目录（会自动创建）
--task doc：选择“文档级”提取任务，适用于完整试卷或论文

这条命令会触发整个多阶段处理流程：页面分割 → 布局分析 → 文字OCR → 公式识别 → 表格重建 → 图像提取 → 结构化输出。

3.3 第三步：查看输出结果

等待几分钟后（具体时间取决于GPU性能），打开 ./output 目录，你会看到以下内容：

output/
├── test.md                    # 主输出文件：Markdown格式
├── figures/                   # 存放所有提取出的图片
│   ├── fig_001.png
│   ├── fig_002.png
│   └── ...
├── tables/                    # 提取出的表格图片
│   ├── table_001.png
│   └── ...
└── formulas/                  # 单独保存的公式图像（可选）
    ├── formula_001.png
    └── ...

最关键的是 test.md 文件。打开它，你会发现：

多栏内容被正确重组为单列顺序阅读流

所有数学公式以 LaTeX 形式保留，如：

当 $ x \in (0, \frac{\pi}{2}) $ 时，证明不等式 $ \sin x < x < \tan x $ 成立。

图表通过 ![](figures/fig_001.png) 引用，位置与原文一致
表格也以 Markdown 表格形式重建，并附带原始图像备份

这意味着你不仅可以直接阅读，还能复制公式去写论文、把图表插入PPT，甚至进一步用脚本批量处理上百份试卷。

4. 关键配置解析：让模型更懂你的需求

虽然默认配置已经很强大，但了解几个核心设置，能让你在特殊场景下更好地控制输出效果。

4.1 模型路径管理

本镜像的模型权重统一存放在：

/root/MinerU2.5/models/

其中包括：

minerv2.5_2509_1.2b.pth：主模型权重
latex_ocr_model/：公式识别专用模型
structeqtable/：表格结构识别模型

这些路径已在配置文件中自动关联，无需手动指定。

4.2 修改设备模式：GPU vs CPU

默认情况下，系统使用 GPU 加速（device-mode: "cuda"），处理速度更快。但如果显存不足（比如小于8GB），可能会出现 OOM（Out of Memory）错误。

此时可以修改 /root/magic-pdf.json 配置文件：

{
  "models-dir": "/root/MinerU2.5/models",
  "device-mode": "cpu",
  "table-config": {
    "model": "structeqtable",
    "enable": true
  }
}

将 "cuda" 改为 "cpu" 后，程序会自动降级到CPU运行。虽然速度慢一些，但稳定性更高，适合老旧设备或超长文档处理。

4.3 输出任务类型选择

除了 --task doc，MinerU 还支持其他提取模式：

任务类型	适用场景
`--task page`	单页快速预览，适合调试
`--task section`	按章节拆分输出，适合书籍
`--task slide`	幻灯片风格提取，保留标题层级

例如，如果你只想看第一页的效果，可以用：

mineru -p test.pdf -o ./preview --task page --page-start 0 --page-end 1

这样只处理第一页，节省时间。

5. 实际效果评估：我们到底能得到什么质量？

让我们用一份真实的高中数学模拟卷来做一次全面检验。

5.1 公式识别准确率

这份试卷共包含 67 个数学公式，涵盖：

初等代数表达式
三角函数恒等变换
导数与积分运算
矩阵与向量表示

经人工核对，65 个公式完全正确，仅有 2 个因原图轻微模糊导致括号识别偏差（如 \left( 被识别为 (）。整体准确率超过 97%。

更重要的是，所有公式都保持了正确的嵌套结构和上下标关系，没有出现“平铺化”问题。

5.2 图表还原能力

试卷中有 5 张函数图像（如二次函数、三角波形）和 2 个数据表格。

图像提取：全部成功分离并保存为 PNG，分辨率清晰，标注文字可读
表格重建：Markdown 表格结构完整，行列对齐，合并单元格也被正确还原
图文对应：每个图表在 Markdown 中的位置与其在原文中的逻辑顺序一致

这意味着你可以直接把这些内容复制到 Typora 或 Obsidian 中，生成一份排版整洁的学习笔记。

5.3 复杂版式处理表现

该试卷采用双栏排版，且部分题目跨栏。传统工具往往会把左右两栏强行拼接，造成语义混乱。

而 MinerU 的布局分析模块能够：

正确判断阅读顺序（从左到右、从上到下）
自动合并跨栏段落
保留标题与题干的层级关系

最终输出的 Markdown 内容，读起来就像重新排版过的电子书，毫无割裂感。

6. 使用建议与常见问题应对

6.1 如何提升提取质量？

源文件尽量高清：扫描件建议分辨率 ≥ 300dpi，避免压缩过度
避免手写涂改：手写内容会影响OCR精度，尤其是公式部分
关闭PDF加密：某些加密PDF会导致无法读取图层信息

6.2 遇到问题怎么排查？

问题现象	可能原因	解决方法
公式显示乱码	原图模糊或字体缺失	检查 `formulas/` 目录下的图像是否清晰
图片未生成	路径权限问题	确保输出目录有写入权限
显存溢出	GPU内存不足	切换至CPU模式或分页处理
表格错位	复杂合并单元格	查看 `tables/` 原图作为补充参考