擅长:python、mysql、java
<p>这不是一个完美的解决方案,但如果您愿意稍微翻阅一下数据,我建议您使用pandas的read\uhtml函数。你知道吗</p>
<p>pandas的read\uhtml提取网页中的所有html表,并将其转换为pandas数据帧数组。你知道吗</p>
<p>此代码似乎获取了链接页面中的所有82个表元素:</p>
<pre><code>import pandas as pd
import requests
url = "https://www.redbook.com.au/cars/details/2019-honda-civic-50-years-edition-auto-my19/SPOT-ITM-524208/"
#Need to add a fake header to avoid 403 forbidden error
header = {
"User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.75 Safari/537.36",
"X-Requested-With": "XMLHttpRequest"
}
resp = requests.get(url, headers=header)
table_dataframes = pd.read_html(resp.text)
for i, df in enumerate(table_dataframes):
print(f"================Table {i}=================\n")
print(df)
</code></pre>
<p>这将打印出网页中的所有82个表格。限制是您必须手动查找您感兴趣的表并相应地操作它。似乎71号和74号表是你想要的。你知道吗</p>
<p>这种方法需要额外的智能才能使其自动化。你知道吗</p>