我想用scrapy下载整个页面的内容。
对于硒,这非常简单:
import os,sys
reload(sys)
sys.setdefaultencoding('utf8')
from selenium import webdriver
url = 'https://es.wikipedia.org/wiki/Python'
driver = webdriver.Firefox()
driver.get(url)
content = driver.page_source
with open('source','w') as output:
output.write(content)
但是硒的速度比scrapy慢得多。
这是一个简单的方法做在废品?
我想将每个页面的代码保存在不同的文件文本中,而不是作为csv或json文件。另外,如果可以不创建项目,这似乎是一个简单的任务有点过火。
代码将下载此页并将其保存在文件
download-a-full-page-with-scrapy.html
测试_scr.py
用这个命令运行scrapy
相关问题 更多 >
编程相关推荐