从PDF提取的表格返回的数据不正确 - Python

2024-03-28 12:31:54 发布

您现在位置:Python中文网/ 问答频道 /正文

我已经试过很多次想办法从这个PDF导入这些数据。你知道吗

http://www.imea.com.br/upload/publicacoes/arquivos/16032018194928.pdf)这是巴西农业部的一份报告。我只需要第一个。你知道吗

我的任务是制定一个程序,从这份报告中获得一些具体的观点,并用它来构建一个段落。你知道吗

问题是我找不到正确导入表的方法。你知道吗

我试过用tabla py,但效果不太好。你知道吗

有人知道我怎么导入吗?你知道吗

Python 3.6/Mac hight Sierra版

ps:这需要用python来完成,因为这段代码将在Heroku上传,所以我不能在那里安装软件。(顺便说一句,我认为即使是表格也不能在那里工作,因为我需要安装Java。。。但我还是会努力的)

我试过的是:

    import tabula
    import requests

    url = "http://www.imea.com.br/upload/publicacoes/arquivos/16032018194928.pdf"
    response = requests.get(url)
    df = tabula.read_pdf(url)
    tabula.convert_into("teste.pdf", "output.csv", output_format="csv", area=(67.14, 23.54,284.12, 558.01)) #I tried also without area.

Tags: brimportcomhttpurloutputpdfwww
1条回答
网友
1楼 · 发布于 2024-03-28 12:31:54

我认为tabla需要一个文件,而不是URL。试试这个:

#!/usr/bin/env python3                                                                                                                                                                         

import tabula
import requests

url = "http://www.imea.com.br/upload/publicacoes/arquivos/16032018194928.pdf"
filename = "16032018194928.pdf"
response = requests.get(url)
with open(filename, 'wb') as f:
    f.write(response.content)
df = tabula.read_pdf(filename)
print(df)

相关问题 更多 >