用scrapy下载一个完整的页面

2024-05-19 01:15:35 发布

您现在位置:Python中文网/ 问答频道 /正文

我想用scrapy下载整个页面的内容。

对于硒,这非常简单:

import os,sys
reload(sys)  
sys.setdefaultencoding('utf8')
from selenium import webdriver


url = 'https://es.wikipedia.org/wiki/Python'

driver = webdriver.Firefox()
driver.get(url)
content = driver.page_source
with open('source','w') as output:
    output.write(content)

但是硒的速度比scrapy慢得多。

这是一个简单的方法做在废品?

我想将每个页面的代码保存在不同的文件文本中,而不是作为csv或json文件。另外,如果可以不创建项目,这似乎是一个简单的任务有点过火。


Tags: 文件importurlsource内容outputosdriver
1条回答
网友
1楼 · 发布于 2024-05-19 01:15:35

代码将下载此页并将其保存在文件download-a-full-page-with-scrapy.html

测试_scr.py

import scrapy
class TestSpider(scrapy.Spider):
    name = "test"

    start_urls = [
        "http://stackoverflow.com/questions/38233614/download-a-full-page-with-scrapy",
    ]

    def parse(self, response):
        filename = response.url.split("/")[-1] + '.html'
        with open(filename, 'wb') as f:
            f.write(response.body)

用这个命令运行scrapy

scrapy runspider test_scr.py

相关问题 更多 >

    热门问题