上未启用刮擦项目管道PythonAnywhere.com

2019-03-16 15:51:12 [scrapy.utils.log] INFO: Scrapy 1.6.0 started (bot: mycorrectbot) 2019-03-16 15:51:12 [scrapy.utils.log] INFO: Versions: lxml 4.3.2.0, libxml2 2.9.9, cssselect 1.0.3, parsel 1.5.1, w3lib 1.20.0, Twisted 18.9.0, Python 3.7.1 (default, Nov 28 2018, 11:51:47) - [Clang 10.0.0 (clang-1000.11.45.5)], pyOpenSSL 19.0.0 (OpenSSL 1.1.1b 26 Feb 2019), cryptography 2.6.1, Platform Darwin-18.2.0-x86_64-i386-64bit 2019-03-16 15:51:12 [scrapy.crawler] INFO: Overridden settings: {'BOT_NAME': 'mycorrectbot', 'DOWNLOAD_DELAY': 0.25, 'NEWSPIDER_MODULE': 'mine.spiders', 'ROBOTSTXT_OBEY': True, 'SPIDER_MODULES': ['mine.spiders'], 'USER_AGENT': 'mine (+https://mine.com)'}

2019-03-16 22:57:11 [scrapy.utils.log] INFO: Scrapy 1.6.0 started (bot: scrapybot) 2019-03-16 22:57:11 [scrapy.utils.log] INFO: Versions: lxml 4.3.2.0, libxml2 2.9.9, cssselect 1.0.3, parsel 1.5.1, w3lib 1.20.0, Twisted 18.9.0, Python 3.7.0 (default, Aug 22 2018, 20:50:05) - [GCC 5.4.0 20160609], pyOpenSSL 19.0.0 (OpenSSL 1.1.1b 26 Feb 2019), cryptography 2.6.1, Platform Linux-4.4.0-1075-aws-x86_64-with-debian-stretch-sid 2019-03-16 22:57:11 [scrapy.crawler] INFO: Overridden settings: {}

├── LICENSE ├── README.md ├── flask_app │ ├── __init__.py │ ├── flask_app.py │ ├── static │ │ ├── css │ │ │ └── home.css │ │ ├── images │ │ │ └── full │ │ │ ├── 1.jpg │ │ │ ├── 2.jpg │ │ │ ├── 3.jpg │ │ └── vendor │ │ ├── bootstrap │ │ │ ├── css │ │ │ │ ├── bootstrap.css │ │ │ │ ├── bootstrap.css.map │ │ │ │ ├── bootstrap.min.css │ │ │ │ └── bootstrap.min.css.map │ │ │ └── js │ │ │ ├── bootstrap.bundle.js │ │ │ ├── bootstrap.bundle.js.map │ │ │ ├── bootstrap.bundle.min.js │ │ │ ├── bootstrap.bundle.min.js.map │ │ │ ├── bootstrap.js │ │ │ ├── bootstrap.js.map │ │ │ ├── bootstrap.min.js │ │ │ └── bootstrap.min.js.map │ │ └── jquery │ │ ├── jquery.js │ │ ├── jquery.min.js │ │ ├── jquery.min.map │ │ ├── jquery.slim.js │ │ ├── jquery.slim.min.js │ │ └── jquery.slim.min.map │ └── templates │ └── index.html ├── scrapy_app │ ├── scrapy_app │ │ ├── __init__.py │ │ ├── items.py │ │ ├── middlewares.py │ │ ├── pipelines.py │ │ ├── settings.py │ │ └── spiders │ │ ├── __init__.py │ │ └── mine.py │ └── scrapy.cfg └── requirements.txt

import scrapy from scrapy.crawler import CrawlerProcess from scrapy.utils.project import get_project_settings from scrapy_app.spiders import mine class MySpider('my spider'): # Your spider definition pass if __name__ == "__main__": process = CrawlerProcess(get_project_settings()) process.crawl(mine.MySpider) process.start() # the script will block here until the crawling is finished

1条回答

网友

1楼 · 发布于 2024-04-16 19:49:08

哇哦。我把事情弄得比我需要的复杂多了。我的PA和本地应用程序之间唯一的差异是我运行的虚拟环境的类型。我删除了PA上推荐的VE，改为使用venv。然后我编写了一个简单的脚本来激活VE，运行spider，然后停用。脚本如下(调度程序.sh)地址：

#!/bin/bash

cd ~
source myvenv/bin/activate
cd /home/userid/project/scrapy_app/scrapy_app
scrapy crawl my spider
deactivate

尽管在PA和scrapy上的指导都很糟糕，但现在一切都如预期的那样工作了。希望这能帮助别人！你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章