从PDF抓取数据到CSV？Python与PHP？

5 投票

2 回答

7132 浏览

提问于 2025-04-17 01:52

我每天都要手动整理一堆报告，真是费时费力，所以我在想要把这个过程自动化。我打算从以下几种格式获取数据：(1) HTML网页，(2) CSV/XLS表格，(3) PDF文件。我之前主要用PHP从CSV和HTML中抓取数据，但我想知道有没有可靠的库或者方法可以用PHP从PDF中提取表格数据？

我最近刚开始学习Python，发现用PDFMiner配合Scrapy来处理PDF可能是个不错的主意。这种方法会更好吗？还是说还有其他选择？

请告诉我一下。谢谢！

数据提取自动化数据抓取数据格式转换 PDF处理 csv转换 web爬虫

2 个回答

如果你能通过命令行访问一个Linux服务器，可以试试使用pdftotext这个命令。

$ pdftotext file.pdf

如果运气好的话，你会得到一些可以使用的内容。不过根据PDF的不同，提取出来的文字可能会因为表格最初的格式而变得有些奇怪，这也是我个人的经验。祝你好运！

回答于 2025-04-17 由 Python大师

分享举报

Beautiful Soup 是一个很不错的工具，可以用来抓取网页内容。而 PDFminer 是我找到的最好的 Python PDF 解析器。我主要使用 pdf2txt.py 来提取文本，如果需要的话再进行格式调整。

回答于 2025-04-17 由 Python大师

分享举报