出于病态的好奇心,我一直试图从PDF中搜集一些关于2020年加州选举结果的数据
我需要刮掉许多页面上出现的表格。在某些情况下,行将继续到下一页,其他页上也会出现其他列。我已经包含了一个例子的链接。我对R很熟悉,但如果Python更适合于抓取,我也可以使用Python。不过,我还没有找到太多的资源来说明如何处理包含这两种语言的附加页面的表。我需要将这些表转换成CSV或XLSX格式
提前谢谢你
在本例中,第15-28页应为一个表格。 https://www.co.tehama.ca.us/images/images/Elections/StatementOfVotesCastNOV2020v2excel.pdf
我能够使用以下步骤获得整个表
相关问题 更多 >
编程相关推荐