在Python中抓取需要输入和recaptcha的网页 - 问答 - Python中文网

在Python中抓取需要输入和recaptcha的网页

2024-05-16 18:52:47 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我在努力刮a website that provides individual access to court cases in New Jersey county courts。不过，我在想怎么开始的时候遇到了很多麻烦。我以前浏览过不少网站，但我通常都能通过修改URL来传递搜索参数。然而，当我访问这个数据的网址没有改变，所以我有点不知所措

另外，我还有一个测试来证明我不是一个机器人（偶尔会变成一个机器人）

例如，在上面链接的网站上，输入将是：

Case County==Bergen, Docket Type==Landlord Tenant (LT), Docket Number==000001, and Docket Year==19

然后，我想能够提取被告的名字或任何东西从随后的网页

有人对我该如何处理这件事有什么建议吗

提前谢谢

Tags： to in new that access 网站机器人 website

1条回答

网友

1楼 · 发布于 2024-05-16 18:52:47

“需要输入”的网站可以使用Selenium来抓取，Selenium评估javascript：然后python代码以“用户”的身份执行页面（单击此处，在此处键入内容）。很慢

或者，如果您查看页面的详细信息，您可能会看到输入发生了什么，只需执行正确形成的GET或POST url（例如，表单通常会使用参数进行POST：查看代码并找出哪些参数被发布到哪个url，然后在python中，执行POST代码您可能需要一个cookiejar来维护会话信息

然而作为一个网站维护者，我给你的建议是不要试图刮伤这个网站：它不想被刮伤&；反复尝试只会使网站所有者的防御活动升级。您可能还违反了使用政策、州和/或联邦法律

相反，寻找一个替代API或替代源(NJ Courts可能有另一种API，专门为计算机使用而设计：向他们发送电子邮件！）

相关问题更多 >

编程相关推荐

热门问题

热门文章