wg gesucht的python网络爬虫/刮刀。在wg gesucht网站上搜寻新公寓列表,并根据保存的过滤器和保存的文本模板向海报发送消息。

wg-gesucht-crawler-cli的Python项目详细描述


https://img.shields.io/travis/grantwilliams/wg-gesucht-crawler-cli.svghttps://img.shields.io/pypi/v/wg-gesucht-crawler-cli.svgDocumentation Status

wg gesucht的python网络爬虫/刮刀。在wg gesucht网站上搜寻新公寓列表,并根据保存的过滤器和保存的文本模板向海报发送消息。

安装

$ pip install wg-gesucht-crawler-cli

或者,如果安装了virtualenvwrapper:

$ mkvirtualenv wg-gesucht-crawler-cli
$ pip install wg-gesucht-crawler-cli

使用

可以使用以下命令直接从命令行运行:

$ wg-gesucht-crawler-cli --help

或者如果您想在自己的项目中使用它:

fromwg_gesucht.crawlerimportWgGesuchtCrawler

只需确保保存至少一个搜索过滤器以及你的wg gesucht帐户模板文本。

功能

  • 根据保存的过滤器搜索https://wg-gesucht.de新的工作组广告
  • 发送保存的模板消息并应用于所有匹配的列表
  • 每~5分钟重新播放一次
  • 全天候在RPI或免费EC2微实例上运行,始终成为首批申请新房源的人之一

被recaptcha捕获

我已经让爬虫在每个请求之间休眠5-8秒,以尝试避免它们的recaptcha,但是如果爬虫被捕获,您可以通过浏览器手动登录到您的wg gesucht帐户并解决recaptcha,然后重新启动爬虫。 如果继续发生,您还可以在wg_gesucht.py中的get_page()函数中增加睡眠时间

历史记录

预释放

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java关闭域实例   java如何获得JTable列的头组件的最小首选宽度,以便其大小不能小于该值?   使用时使用java Jsoup。孩子们()。跳出边界性感觉   类静态初始化块内的java类用法   java ParseCrashReporting*。在其Android SDK的1.11.0中找不到jar   javahsqldb组织。springframework。刀。复杂选择上的TransientDataAccessResourceException   java EJB 3.1@SessionScoped Bean holding登录信息注销问题   java如何跟踪重复警报何时关闭并更新设置值?   具有可变参数类型的java接口方法   使用openstack4j计算查询的java连接超时   java这是一种双向的一对一关系吗?   java如何重置EventStream中的最后一个累积值?   java如何在超级抽象类中使用@Bean?   使用多部分上传java图像   java列出了已解析的SQL SELECT语句的所有表/列   java使用内部类实现单元测试类的正确方法   使用AWS API网关的java ContentType飞行前处理与自己的Rest服务器   调用dispose()后重新创建JinternalFrame对象   字符编码通过java编写一个以UTF8编码的文本文件,其中包含BOM表。尼奥