使用R进行PDF抓取

10 投票

4 回答

4201 浏览

提问于 2025-04-17 05:07

我一直在用XML这个工具成功地提取HTML表格，但我想把这个功能扩展到PDF文件上。从之前的问题来看，似乎没有简单的R语言解决方案，但我想知道最近有没有什么新的进展。

如果没有，那有没有什么方法可以在Python中（我对Python完全是个新手）获取和处理PDF文件，这样我就可以用R的XML工具完成我的工作。

数据提取 html表格 R语言 xml工具 pdf抓取

4 个回答

据我所知，把PDF里的表格转换成可以用来分析的数据并不简单。你可以使用数据科学工具包里的文件转文本功能（通过RDSTK这个R语言包），然后再处理得到的文本。不过要注意，处理这些文本通常不是一件容易的事。

补充一下：在discerning.com上有关于把PDF转换成XML的有用讨论。简单来说，你可能需要购买一个商业工具来完成这个任务。

回答于 2025-04-17 由 Python大师

分享举报

你可以看看这个叫做 text mining 的软件包，名字是 tm。我记得他们有一种叫做“读取器”的功能，其中也包括了处理PDF文件的。

回答于 2025-04-17 由 Python大师

分享举报

从PDF文件中提取文本是个难事，几乎总是需要非常小心。

我建议先试试一些命令行工具，比如pdftotext，看看它们能输出什么。问题在于，PDF文件可以以任何顺序存储文本，还可能使用一些奇怪的字体编码，甚至会用到连字字符（比如在排版中常见的“ff”和“ij”连在一起的样子），这都会让你感到困惑。

pdftotext可以在任何Linux系统上安装...

回答于 2025-04-17 由 Python大师

分享举报