我正在寻找一个python模块,它可以让我浏览网站的搜索栏、链接等。 作为背景,我想对这个网站做一点网页垃圾处理[https://www.realclearpolitics.com/] 我只想获取与2020年选举有关的每个州的信息(投票数据等),并将其组织在一个数据库集合中。 显然,有很多状态需要处理,每个状态都在一个单独的网页上。因此,我正在寻找一种python方法,在这种方法中,我可以快速浏览网站,获取每个页面的数据,以及更新和添加现有数据。因此,找到一种使用输入数据快速浏览链接和搜索栏的方法将非常有用L 如有任何建议,将不胜感激
# a simple list that contains the names of each state
states = ["Alabama", "Alaska" ,"Arizona", "....."]
for state in states:
#code to look up the state in the searchbar of website
#figures being taken from website etc
break
这是我的大致想法
有许多选项可以通过Python实现这一点。正如@LD提到的,您可以使用Selenium。如果您需要通过无头浏览器与网站UI交互,Selenium是一个不错的选择。例如,单击按钮,在搜索栏中输入文本等。如果您的需求没有那么复杂,例如,如果您只需要快速从网页中提取所有原始内容并进行处理,那么您应该使用Python标准库中的请求模块
对于处理爬网中的原始内容,我建议使用beautiful soup
希望有帮助
相关问题 更多 >
编程相关推荐