我正在用scrapy抓取一些网页。但在某种程度上,Google reCAPTCHA挡住了道路。在
如果浏览器(本例中为scrapy)没有运行的javascript,Google reCAPTCHA甚至不会加载。它只要求您启用javascript来查看和解决reCAPTCHA。在
所以,我认为,如果我能找到一种方法,当这个reCAPTCHA发生时,用户可以手动解决这个问题,scrapy继续爬行,但我不能用一个真正的javascript来中断这个过程。在这一点上我可以用什么?有可能把硒和肉末混合吗?在
Tags:
听起来你想造一些半自动的东西。Scrapy不适合这样做,正如您所说,它不能处理javascript。在
我建议你试试硒。它启动了一个完整的chrome浏览器,并且可以编写脚本。见https://selenium-python.readthedocs.io/
您可以停止脚本和某些事件(例如reCAPTCHA),然后让用户接管。在
相关问题 更多 >
编程相关推荐