自从常用的扫描软件开始收费之后,想找一款好用又免费的OCR表格识别工具,说实话是真的越来越难了。尤其是那种既能图片转Excel,又能PDF转Excel的工具,更是稀缺资源。不过别急,折腾了一圈之后,我还真找到两款靠谱的,而且都是实打实能用、不玩套路的那种。
这次要聊的核心就是两类工具:一款是OCR表格识别工具,专门负责图片转Excel;另一款是pdf转excel工具,直接把PDF里的表格还原成Excel。搭配起来用,基本能覆盖90%的表格转换需求。
第一款:OCR表格识别工具(图片转Excel)

先说这款OCR表格识别工具。简单一句话概括:它就是一款能把表格图片转成Excel的软件,而且识别效果相当能打。
这款工具是基于 PaddleOCR 模型 来运行的,所以下载安装到解压之后,你会看到两个部分:一个是OCR表格识别工具本体,另一个是PaddleOCR模型文件。

首次使用前需要做一个小准备,也不复杂。直接双击运行 paddleocr_model_copy_tool.exe,然后点击【放入正确目录】,程序会自动把PaddleOCR模型复制到指定位置。等提示复制完成就行了,全程基本无脑操作。

模型放好之后,再双击打开 OCR表格识别工具.exe。界面非常清爽,没有乱七八糟的按钮,流程也就三步:
- 选择图片
- 选择输出路径
- 点击【开始识别】

点击开始后,软件就会自动进行OCR表格识别。这个过程相对慢一点,主要取决于图片大小和表格复杂程度,耐心等一会儿就好。

从实际测试来看,图片中的行列结构、数字和文字基本都能完整识别出来。至少不会出现“转完还是一张图”或者“Excel一片空白”的尴尬情况。对于需要频繁做图片转Excel的人来说,这款OCR表格识别工具真的很香。

第二款:pdftoexcel(PDF转Excel)
再来说说这款pdf转excel工具——pdftoexcel。严格来说,你也可以先把PDF转成图片,再用上面的OCR表格识别工具处理,但步骤会多一点。如果你追求省事,那直接用这款pdftoexcel就对了。

pdftoexcel是绿色单文件版,不用安装,双击即可运行,这点就很加分。打开软件后,你会发现操作同样非常简单:
- 把需要转换的PDF文件统一放到一个文件夹
- 点击【浏览】,选择PDF所在文件夹
- 点击【运行程序】
点击运行之后,软件会自动处理文件夹内的PDF表格。转换速度很快,基本几秒到十几秒就能搞定一个文件。

实测效果也相当不错。无论是表格结构还是数据内容,都能比较完整地还原成Excel格式,至少不会出现只生成空表或者整页变成图片的情况。

需要注意的一点是,如果你的PDF文件名是中文,转换后的Excel文件名有可能会出现乱码。这主要是编码没设置好的问题,不过只影响文件名,不影响表格内容,手动改个名字就行了,问题不大。
小声总结一下
说实话,市面上的PDF转Excel工具我也试了不少,很多要么收费、要么限制多、要么效果一言难尽。而目前这套组合——OCR表格识别工具
+ pdftoexcel,在免费工具里真的算是表现非常稳的了。
不管你是日常做报表,还是偶尔需要把扫描件、PDF里的表格整理成Excel,这两款工具基本都能顶上。能免费做到这个程度,已经很良心了,用就完事了。
