如何在不单击展开按钮的情况下刮取页面的源代码？

1条回答

网友

1楼 · 发布于 2024-04-19 07:24:33

如果确实所有的数据都是在开始时加载的，那么可以通过查看DOM（在标记处，或者可能是包含数据的任何其他标记处）找到它。简单的方法是打开控制台（F12）并使用浏览器提供的inspect element工具

现在回答您的问题，我将使用BeautifulSoup在找到的位置（tag）刮取数据

例如，您的表驻留在一个div中（具有随机属性，例如一个名为“randomclass”的类）。table标记是'ul'，每个条目都存储在'li'中，特别是存储在'li'中。text（）

要选择div：

selected_div = soup.find('div', attrs={'class': 'randomclass'})

要选择div中的表：

table = selected_div.find('ul')

要遍历表行并管理数据，请执行以下操作：

for li in table.find_all('li'):
        mylist.append(li.text())