伙计们, 我正在尝试开发一个python解决方案,以便从美国农业部(USDA)获得一些有关农产品的信息。你知道吗
美国农业部每个月都会发布一份报告,对玉米、大豆和小麦等大宗商品进行评估。你知道吗
我的目标是准备一个程序去网站,得到正确的号码,并返回一个信息,如:
——美国农业部估计美国大豆产量为448亿吨,高于上一份报告中的420亿吨
但首先,我需要找出获取这些信息的最佳文件类型。哪个更容易处理这些信息?你怎么认为?
美国农业部以PDF、xls、XML和TXT格式发布了相同的数据库。(您可以在这里看到文件:http://usda.mannlib.cornell.edu/MannUsda/viewDocumentInfo.do?documentID=1194)
我在考虑从xls获取它,这是一种我处理得更好的文件类型。但从数据库来看,我看到了不同数据库之间的一些差异。txt和XML文件似乎更准确。。。但我从来没用过。。。不知道这是不是个好主意。你知道吗
顺便说一句:如果你对图书馆处理文件和数据有什么建议,我也接受。=D
谢谢你!你知道吗
我将使用XML格式,它是最具机器可读性的,并且将得到最多的支持。在过去,我使用了名为
lxml
的XML解析库和BeautifulSoup
来提取所需的数据。它们都有大量的文档。你知道吗相关问题 更多 >
编程相关推荐