wg gesucht的python网络爬虫/刮刀。在wg gesucht网站上搜寻新公寓列表,并根据保存的过滤器和保存的文本模板向海报发送消息。
wg-gesucht-crawler-cli的Python项目详细描述
wg gesucht的python网络爬虫/刮刀。在wg gesucht网站上搜寻新公寓列表,并根据保存的过滤器和保存的文本模板向海报发送消息。
安装
$ pip install wg-gesucht-crawler-cli
或者,如果安装了virtualenvwrapper:
$ mkvirtualenv wg-gesucht-crawler-cli $ pip install wg-gesucht-crawler-cli
使用
可以使用以下命令直接从命令行运行:
$ wg-gesucht-crawler-cli --help
或者如果您想在自己的项目中使用它:
fromwg_gesucht.crawlerimportWgGesuchtCrawler
只需确保保存至少一个搜索过滤器以及你的wg gesucht帐户模板文本。
- 自由软件:麻省理工学院许可证
- 文档:https://wg-gesucht-crawler-cli.readthedocs.org。
功能
- 根据保存的过滤器搜索https://wg-gesucht.de新的工作组广告
- 发送保存的模板消息并应用于所有匹配的列表
- 每~5分钟重新播放一次
- 全天候在RPI或免费EC2微实例上运行,始终成为首批申请新房源的人之一
被recaptcha捕获
我已经让爬虫在每个请求之间休眠5-8秒,以尝试避免它们的recaptcha,但是如果爬虫被捕获,您可以通过浏览器手动登录到您的wg gesucht帐户并解决recaptcha,然后重新启动爬虫。
如果继续发生,您还可以在wg_gesucht.py
中的get_page()
函数中增加睡眠时间
历史记录
预释放