有了Scrapy,我无法以未知的原因(可能是因为某种重定向)来抓取网站

2024-05-15 06:23:10 发布

您现在位置:Python中文网/ 问答频道 /正文

我在用刮痧刮ntry.com网站 主页的网址是 ntry.com/主页.php文件

我想刮的那一页是 http://ntry.com/#/scores/named_ladder/main.php

但我不知道,我不能刮错一页。这是我的密码。

import scrapy


class NtrySpider(scrapy.Spider):
name = "ntry"
allowed_domains = ["ntry.com"]
start_urls = [
    "http://ntry.com/#/scores/named_ladder/main.php"
    ]

def parse(self, response):
    filename = 'ntryex1'
    with open(filename, 'wb') as f:
        f.write(response.body)

' 调试:已爬网(200)http://ntry.com/#/scores/named_ladder/main.html>;(推荐人:无)

使用这段代码,我总是刮取内容ntry.com/主页.php,但我的起始URL是http://ntry.com/#/scores/named_ladder/main.php

你能告诉我有什么问题吗?


Tags: 文件comhttp网站mainresponse主页filename
1条回答
网友
1楼 · 发布于 2024-05-15 06:23:10

scrapy默认不加载java脚本。。尝试在浏览器中禁用java脚本并打开所需的URL,Scrapy实际上收到了禁用java脚本后浏览器中的响应。。在

如果您想用scrapy处理javascript,请查看Splash

相关问题 更多 >

    热门问题