从多表wikipedia中删除表

3条回答

网友

1楼 · 编辑于 2024-04-19 19:37:20

我会这样做：

import pandas as pd
url = 'https://id.wikipedia.org/wiki/Demografi_Indonesia#Jumlah_penduduk_menurut_provinsi'
df_list = pd.read_html(url)
df = df_list[1]
print(df)

网友

2楼 · 编辑于 2024-04-19 19:37:20

您可以使用soup.find_all('table')[1]选择第一个表

from bs4 import BeautifulSoup
import requests 

url = "https://id.wikipedia.org/wiki/Demografi_Indonesia#Jumlah_penduduk_menurut_provinsi"
r = requests.get(url)
soup = BeautifulSoup(r.content, "html.parser")
table = soup.find_all('table')[1]
rows = table.find_all('tr')
row_list = list()

for tr in rows:
    td = tr.find_all('td')
    row = [i.text for i in td]
    row_list.append(row)

print(row_list[1:])

网友

3楼 · 编辑于 2024-04-19 19:37:20

获取所有表并存储在数组中，然后从[0]索引获取表。通过这种方式，您可以提取第一个表，而不需要任何id

编程相关推荐

使用硬件相关VM参数（重新）启动Java应用程序的正确方法？
java有一个Eclipse插件弹出菜单，只有在选择文件夹时才会出现
java演示简单Ajax ans Servelt实现失败
java如何在不需要OAuth授权的情况下代表组织用户提供密码
java检查一个字符串是否等于另一个字符串的子字符串
java我可以从for循环中的1开始初始化2D数组吗
使用选择排序的java排序2D数组
java如何在一轮投票后重新开始，而不在其中存储统计数据
我的Java代码不断向文本文件添加重复项
java MapReduce Hadoop字长频率不起作用

这个

问题:

相关问题更多 >

编程相关推荐

热门问题

热门文章

从多表wikipedia中删除表

这个

问题:

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >