正在删除Wikipedia表，但未提供任何结果

import requests from bs4 import BeautifulSoup WIKI_URL = "https://en.wikipedia.org/wiki/List_of_volcanoes_by_elevation" req = requests.get(WIKI_URL) soup = BeautifulSoup(req.content, 'lxml') table_classes = {"class": ["sortable", "plainrowheaders"]} wikitables = soup.findAll("table", table_classes) print(wikitables)

1条回答

网友

1楼 · 发布于 2024-06-02 05:09:32

您可以使用正则表达式来实现这一点。你知道吗

你可以通过requests.get(WIKI_URL).content获得网站内容
请参阅该站点的源代码，以了解Wikipedia如何以HTML呈现表格。你知道吗
找到一个可以容纳整个表的正则表达式（可能类似于<table>(?P<table>*+?)</table>）。它所做的是获取<table>和</table>标记之间的任何内容。对于使用python的regex来说，这是一个很好的documentation。看看re.findall()。你知道吗
现在只剩下表数据了。您可以再次使用正则表达式来获取每行的数据，然后使用每行上的regex来获取列。re.findall()又是关键。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章

正在删除Wikipedia表，但未提供任何结果

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >