擅长:python、mysql、java
<p>请在使用<code>extract_tables()</code>选项时添加以下设置(这可能需要根据您的输入文件进行更改):</p>
<pre><code>import pdfplumber
import pandas as pd
import numpy as np
with pdfplumber.open(r'document.pdf') as pdf:
page = pdf.pages[0]
table = page.extract_table(table_settings={"vertical_strategy": "lines",
"horizontal_strategy": "text",
"snap_tolerance": 4,})
df = pd.DataFrame(table, columns=table[0]).T
</code></pre>
<p>此外,请阅读<code>pdfplumber</code>文档(提取表)部分,因为有许多选项可包含在基于输入文件的代码中:</p>
<p><a href="https://github.com/jsvine/pdfplumber#extracting-tables" rel="nofollow noreferrer">https://github.com/jsvine/pdfplumber#extracting-tables</a></p>