在Python中抓取需要输入和recaptcha的网页

2024-05-16 18:52:47 发布

您现在位置:Python中文网/ 问答频道 /正文

我在努力刮a website that provides individual access to court cases in New Jersey county courts。不过,我在想怎么开始的时候遇到了很多麻烦。我以前浏览过不少网站,但我通常都能通过修改URL来传递搜索参数。然而,当我访问这个数据的网址没有改变,所以我有点不知所措

另外,我还有一个测试来证明我不是一个机器人(偶尔会变成一个机器人)

例如,在上面链接的网站上,输入将是:

Case County==Bergen, Docket Type==Landlord Tenant (LT), Docket Number==000001, and Docket Year==19

然后,我想能够提取被告的名字或任何东西从随后的网页

有人对我该如何处理这件事有什么建议吗

提前谢谢


Tags: toinnewthataccess网站机器人website
1条回答
网友
1楼 · 发布于 2024-05-16 18:52:47

“需要输入”的网站可以使用Selenium来抓取,Selenium评估javascript:然后python代码以“用户”的身份执行页面(单击此处,在此处键入内容)。很慢

或者,如果您查看页面的详细信息,您可能会看到输入发生了什么,只需执行正确形成的GET或POST url(例如,表单通常会使用参数进行POST:查看代码并找出哪些参数被发布到哪个url,然后在python中,执行POST代码您可能需要一个cookiejar来维护会话信息

然而作为一个网站维护者,我给你的建议是不要试图刮伤这个网站:它不想被刮伤&;反复尝试只会使网站所有者的防御活动升级。您可能还违反了使用政策、州和/或联邦法律

相反,寻找一个替代API或替代源(NJ Courts可能有另一种API,专门为计算机使用而设计:向他们发送电子邮件!)

相关问题 更多 >