用Python刮网的宜家牦牛?

2024-05-16 11:26:05 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个非常独特的问题。作为一个整体,我对web抓取和python还比较陌生,但我一直在尝试使用诸如requests、urllib3和BeautifulSoup之类的库。我的目标是从我所在区域(大学区域)的Yik Yak服务器上获取数据,并创建一个包含特定术语的牦牛数据库。在

目前要想通过网络浏览器访问宜家牦牛,必须先输入自己的电话号码,然后在iphone上的应用程序上请求一个代码,并在web浏览器中输入代码,才能查看和发布新的牦牛。自动化这个过程似乎是不可能的。我有两个可能的想法可以解决这个问题,我请求对这些方法或行动方法的反馈,如果认为可能的话。在

  1. 我的第一个想法是先让python将我的电话号码发送到输入字段,然后请求用户输入,在这里我可以从手机检索访问代码,然后输入到python控制台,然后开始抓取。

  2. 我的第二个想法(如果我的第一个想法不可能的话)是从我已经被授权查看和发布yaks的浏览器中复制cookies,然后“模拟”这个浏览器会话,在那里我可以开始抓取数据。

这只是一个附带的项目,我正在开始工作,任何你可能提供的帮助将是伟大的。谢谢你的阅读。在

Yik Yak online可以访问here,但需要一个手机帐户和生成的访问代码。访问码只能持续60秒,但可以无限次生成,并且可以在Iphone/Android上的Yik Yak应用程序中生成


Tags: 方法代码web应用程序浏览器电话号码requests手机
1条回答
网友
1楼 · 发布于 2024-05-16 11:26:05

我不是百分之百清楚你想做什么。如果你只需要得到一次电话号码,那就把它硬编码进去。但听起来你可能想考虑浏览器自动化,而不是从浏览器会话中获取数据的网络垃圾。这是有区别的。Webscraping只是对服务器的一个简单请求,它返回可以解析出的HTML,这对于静态页面来说很好。但是,当你需要处理会话cookie和输入表单时,浏览器自动化才是最好的选择。您可以填写下拉列表、选择组合框、填充文本框、单击按钮等

大多数人使用Selenium;但我也会查看Splinter的ChromeDriver。两者都能完成任务。希望这有帮助。在

相关问题 更多 >