wg gesucht的python网络爬虫/刮刀。在wg gesucht网站上搜寻新公寓列表,并根据保存的过滤器和保存的文本模板向海报发送消息。

wg-gesucht-crawler-cli的Python项目详细描述


https://img.shields.io/travis/grantwilliams/wg-gesucht-crawler-cli.svghttps://img.shields.io/pypi/v/wg-gesucht-crawler-cli.svgDocumentation Status

wg gesucht的python网络爬虫/刮刀。在wg gesucht网站上搜寻新公寓列表,并根据保存的过滤器和保存的文本模板向海报发送消息。

安装

$ pip install wg-gesucht-crawler-cli

或者,如果安装了virtualenvwrapper:

$ mkvirtualenv wg-gesucht-crawler-cli
$ pip install wg-gesucht-crawler-cli

使用

可以使用以下命令直接从命令行运行:

$ wg-gesucht-crawler-cli --help

或者如果您想在自己的项目中使用它:

fromwg_gesucht.crawlerimportWgGesuchtCrawler

只需确保保存至少一个搜索过滤器以及你的wg gesucht帐户模板文本。

功能

  • 根据保存的过滤器搜索https://wg-gesucht.de新的工作组广告
  • 发送保存的模板消息并应用于所有匹配的列表
  • 每~5分钟重新播放一次
  • 全天候在RPI或免费EC2微实例上运行,始终成为首批申请新房源的人之一

被recaptcha捕获

我已经让爬虫在每个请求之间休眠5-8秒,以尝试避免它们的recaptcha,但是如果爬虫被捕获,您可以通过浏览器手动登录到您的wg gesucht帐户并解决recaptcha,然后重新启动爬虫。 如果继续发生,您还可以在wg_gesucht.py中的get_page()函数中增加睡眠时间

历史记录

预释放

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java使用EntityManager有没有更有效的习惯用法?   Android上的java Google应用程序引擎(GAE)响应代码和cookie   如何在Java中创建单元测试?   java从DB获取特定列的最新行   java替换所有悬空元字符   java使用Hibernate删除SQL表中的数据   swing显示JComponent对象Java   java在确认内容类型后如何将URL保存到文件?   javascript如何从段落中选择大量单词?(硒)   java在Linux上使用BundleEnableTiveCode不起作用   java使用日志似然性来比较不同的mallet主题模型?   java无法在Tomcat7上运行Spring Boot 2.0:“由于缺少ServletWebServerFactory bean,无法启动ServletWebServerApplicationContext。”   java有办法显式引用非静态内部类实例吗?   java如何使用Spring的NamedParameterJdbcTemplate在MySQL数据库中创建和删除表?