谷歌新闻爬虫

google_news_crawler的Python项目详细描述


Google News获取新闻文章的实用程序。

gnc从google news feeds和stores中检索最新的条目 它们在ElasticSearch或磁盘上。

由阿姆斯特丹大学的Isaac Sijaranamual撰写。

安装

google新闻爬虫程序可以像往常一样用pip安装:

pip install google_news_crawler

用法

检索属于“科学/技术”主题的新闻项 来自google news的博茨瓦纳地区,将文章存储在 ElasticSearch实例:

google_news_crawler --datastore=ES --feed="http://news.google.com/news?cf=all&ned=en_bw&output=rss&topic=t&sort=newest"

您通常希望在 crontab定期获取所有项目:

# m h  dom mon dow   command
01-59/10 * * * * google_news_crawler --log-config=/path/to/gnc/logging.yaml --datastore=ES --feed="http://news.google.com/news?cf=all&ned=en_bw&output=rss&topic=t&sort=newest"

可以使用^{tt3}获得用法选项的完整列表$ 参数:

google_news_crawler --help

不义之财

存储到磁盘后端仍然可用,但已作为 由于许可证不兼容而产生的依赖项,因为warc 根据GPL授权(版本2)

待办事项

  • 一般
    • 使用户代理可配置
    • 展开文档
  • ElasticSearch后端
    • 使所有与ES相关的设置都可配置
    • 更新现有文档的元数据,而不是跳过它们 完全
    • 改进文档的索引映射

许可证

版权所有2013-2014 Isaac Sijaranamual,阿姆斯特丹大学/ILPS

根据apache许可证2.0版(以下简称“许可证”)授权;您 不得使用本作品或衍生作品,除非符合 执照您可以在

http://www.apache.org/licenses/LICENSE-2.0

除非适用法律要求或书面同意,否则软件 根据许可证分发是按“原样”分发的, 没有任何保证或条件,无论是快递还是 暗指的。有关特定语言的管理,请参见许可证 许可下的权限和限制。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Grid loadmask(true)在gxt中不起作用   java将字符串索引转换为整数   为什么Java泛型适用于基元数组,但不适用于基元数组?   java如何让Azure应用程序服务Tomcat将所有80/443流量转发到运行在同一应用程序服务上的JBoss   具有多个值的java转换映射到树?   java如何设置SQL server连接URL?   java设置了多个相互独立的JFrame   安全性在JAVA中如何使用RSAPrivateKey的密码短语?   java不能使用比Apache Velocity中更大的条件   如何在Java中打印字符串的所有排列   停止Android Studio自动导入java。sql。日期   对象简单计算器程序java   java如何在安卓中使用“&”符号作为字符串?   java Connect,为我的安卓应用程序从REST API发布和获取数据