适用于浏览网站的Python模块

2024-05-16 21:32:02 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在寻找一个python模块,它可以让我浏览网站的搜索栏、链接等。 作为背景,我想对这个网站做一点网页垃圾处理[https://www.realclearpolitics.com/] 我只想获取与2020年选举有关的每个州的信息(投票数据等),并将其组织在一个数据库集合中。 显然,有很多状态需要处理,每个状态都在一个单独的网页上。因此,我正在寻找一种python方法,在这种方法中,我可以快速浏览网站,获取每个页面的数据,以及更新和添加现有数据。因此,找到一种使用输入数据快速浏览链接和搜索栏的方法将非常有用L 如有任何建议,将不胜感激

# a simple list that contains the names of each state
states = ["Alabama", "Alaska" ,"Arizona", "....."] 
for state in states:
    #code to look up the state in the searchbar of website
    #figures being taken from website etc
    break

这是我的大致想法


Tags: 模块ofthe数据方法in网页网站
1条回答
网友
1楼 · 发布于 2024-05-16 21:32:02

有许多选项可以通过Python实现这一点。正如@LD提到的,您可以使用Selenium。如果您需要通过无头浏览器与网站UI交互,Selenium是一个不错的选择。例如,单击按钮,在搜索栏中输入文本等。如果您的需求没有那么复杂,例如,如果您只需要快速从网页中提取所有原始内容并进行处理,那么您应该使用Python标准库中的请求模块

对于处理爬网中的原始内容,我建议使用beautiful soup

希望有帮助

相关问题 更多 >