删除大型复杂的PDF表格

2024-05-29 10:29:39 发布

您现在位置:Python中文网/ 问答频道 /正文

出于病态的好奇心,我一直试图从PDF中搜集一些关于2020年加州选举结果的数据

我需要刮掉许多页面上出现的表格。在某些情况下,行将继续到下一页,其他页上也会出现其他列。我已经包含了一个例子的链接。我对R很熟悉,但如果Python更适合于抓取,我也可以使用Python。不过,我还没有找到太多的资源来说明如何处理包含这两种语言的附加页面的表。我需要将这些表转换成CSV或XLSX格式

提前谢谢你

在本例中,第15-28页应为一个表格。 https://www.co.tehama.ca.us/images/images/Elections/StatementOfVotesCastNOV2020v2excel.pdf


Tags: csv数据语言pdf链接格式情况页面
1条回答
网友
1楼 · 发布于 2024-05-29 10:29:39

我能够使用以下步骤获得整个表

  1. 在MS Word中打开pdf-而不是Adobe Acrobat。Word将转换 文件
  2. 转换完成后,选择“全部”。(两者都可以 (需要一些时间。)
  3. 粘贴到空白的Excel工作表中。节约和享受

相关问题 更多 >

    热门问题