在Python中抓取javascript呈现的文本的最快解决方案

2024-06-17 08:59:40 发布

男 | 程序猿一只，喜欢编程写python代码。

我是一个比较新的刮擦，并试图刮这个网站（和许多，许多喜欢它）：http://www.superiorcourt.maricopa.gov/docket/CriminalCourtCases/caseInfo.asp?caseNumber=CR1999-012267

我用的是Python和Scrapy。我的问题是，当我启动一个废弃的shell并将其指向这个url时，响应体中充满了我无法读取的代码，例如：

c%*u9u\\'! (vy!}vyO"9u#$"v/!!!"yJZ*9u!##v/!"*!%y\\_9u\\')"v/\\'!#myJOu9u$)}vy}vy9CCVe^SdY_^uvkT_Se]U^dKju"&#$)\\')&vMK9u)}&vy}MKju!\\'$#)(# (!#vMuvmy\\:*Ve^SdY_^uCy\\y

我实际上想搜集的信息似乎无法访问。在

我认为这是一个javascript问题，并且已经确认使用其他人之前建议的工具（比如Selenium）可以正确地呈现页面。我的问题是，我将需要收集几百万个这样的网站，并且不相信基于浏览器的解决方案会足够快。在

有更好的方法吗？我不需要点击页面上的任何链接（我有一个很长的列表，所有的网址我想刮），或与它以任何其他方式互动。响应体是否可能包含我可以解析的JSON代码？在

Tags：代码 http 网站 www 页面 gov asp vy

1条回答

网友

1楼 · 发布于 2024-06-17 08:59:40

如果您只想等待javascript数据加载，我将使用ScrapyJS。在

如果需要与网站上的javascript元素交互，可以使用Scrapy+Selenium+phantomjs。后者通常更容易学，因为后者更容易学

在Python中抓取javascript呈现的文本的最快解决方案

相关问题更多 >

编程相关推荐

热门问题

热门文章

在Python中抓取javascript呈现的文本的最快解决方案

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >