我试图获取此URL的内容-https://www.zillow.com/homedetails/131-Avenida-Dr-Berkeley-CA-94708/24844204_zpid/ 我用刮痧。这是我的密码
import scrapy
class QuotesSpider(scrapy.Spider):
name = "quotes"
start_urls = [
'https://www.zillow.com/homedetails/131-Avenida-Dr-Berkeley-CA-94708/24844204_zpid/',
]
def parse(self, response):
filename = 'test.html'
with open(filename, 'wb') as f:
f.write(response.body)
self.log('Saved file %s' % filename)
我打开了scraped数据(test.html),得到了这个内容。 我试图找到解决办法,我尝试了这个-ERROR for site owner: Invalid domain for site key 但这并没有解决我的问题
首先,尝试这种方法,看看是否有效:
我们在普通浏览器中看不到输出的原因是,我们没有使用正确的头文件,否则这些头文件总是由浏览器发送的
您需要按照上述代码中的说明或通过在settings.py中更新标题来添加标题
更好的方法是使用“旋转代理”职责和“旋转用户代理”存储库
相关问题 更多 >
编程相关推荐