使用R进行PDF抓取
我一直在用XML这个工具成功地提取HTML表格,但我想把这个功能扩展到PDF文件上。从之前的问题来看,似乎没有简单的R语言解决方案,但我想知道最近有没有什么新的进展。
如果没有,那有没有什么方法可以在Python中(我对Python完全是个新手)获取和处理PDF文件,这样我就可以用R的XML工具完成我的工作。
4 个回答
4
据我所知,把PDF里的表格转换成可以用来分析的数据并不简单。你可以使用数据科学工具包里的文件转文本功能(通过RDSTK这个R语言包),然后再处理得到的文本。不过要注意,处理这些文本通常不是一件容易的事。
补充一下:在discerning.com上有关于把PDF转换成XML的有用讨论。简单来说,你可能需要购买一个商业工具来完成这个任务。
5
你可以看看这个叫做 text mining 的软件包,名字是 tm
。我记得他们有一种叫做“读取器”的功能,其中也包括了处理PDF文件的。
11
从PDF文件中提取文本是个难事,几乎总是需要非常小心。
我建议先试试一些命令行工具,比如pdftotext,看看它们能输出什么。问题在于,PDF文件可以以任何顺序存储文本,还可能使用一些奇怪的字体编码,甚至会用到连字字符(比如在排版中常见的“ff”和“ij”连在一起的样子),这都会让你感到困惑。
pdftotext可以在任何Linux系统上安装...