从PDF抓取数据到CSV?Python与PHP?
我每天都要手动整理一堆报告,真是费时费力,所以我在想要把这个过程自动化。我打算从以下几种格式获取数据:(1) HTML网页,(2) CSV/XLS表格,(3) PDF文件。我之前主要用PHP从CSV和HTML中抓取数据,但我想知道有没有可靠的库或者方法可以用PHP从PDF中提取表格数据?
我最近刚开始学习Python,发现用PDFMiner配合Scrapy来处理PDF可能是个不错的主意。这种方法会更好吗?还是说还有其他选择?
请告诉我一下。谢谢!
2 个回答
2
如果你能通过命令行访问一个Linux服务器,可以试试使用pdftotext这个命令。
$ pdftotext file.pdf
如果运气好的话,你会得到一些可以使用的内容。不过根据PDF的不同,提取出来的文字可能会因为表格最初的格式而变得有些奇怪,这也是我个人的经验。祝你好运!
3
Beautiful Soup 是一个很不错的工具,可以用来抓取网页内容。而 PDFminer 是我找到的最好的 Python PDF 解析器。我主要使用 pdf2txt.py 来提取文本,如果需要的话再进行格式调整。