谷歌新闻爬虫
google_news_crawler的Python项目详细描述
从Google News获取新闻文章的实用程序。
gnc从google news feeds和stores中检索最新的条目 它们在ElasticSearch或磁盘上。
由阿姆斯特丹大学的Isaac Sijaranamual撰写。
安装
google新闻爬虫程序可以像往常一样用pip安装:
pip install google_news_crawler
用法
检索属于“科学/技术”主题的新闻项 来自google news的博茨瓦纳地区,将文章存储在 ElasticSearch实例:
google_news_crawler --datastore=ES --feed="http://news.google.com/news?cf=all&ned=en_bw&output=rss&topic=t&sort=newest"
您通常希望在 crontab定期获取所有项目:
# m h dom mon dow command 01-59/10 * * * * google_news_crawler --log-config=/path/to/gnc/logging.yaml --datastore=ES --feed="http://news.google.com/news?cf=all&ned=en_bw&output=rss&topic=t&sort=newest"
可以使用^{tt3}获得用法选项的完整列表$ 参数:
google_news_crawler --help
不义之财
存储到磁盘后端仍然可用,但已作为 由于许可证不兼容而产生的依赖项,因为warc 根据GPL授权(版本2)
待办事项
- 一般
- 使用户代理可配置
- 展开文档
- ElasticSearch后端
- 使所有与ES相关的设置都可配置
更新现有文档的元数据,而不是跳过它们 完全 - 改进文档的索引映射
许可证
版权所有2013-2014 Isaac Sijaranamual,阿姆斯特丹大学/ILPS
根据apache许可证2.0版(以下简称“许可证”)授权;您 不得使用本作品或衍生作品,除非符合 执照您可以在
http://www.apache.org/licenses/LICENSE-2.0
除非适用法律要求或书面同意,否则软件 根据许可证分发是按“原样”分发的, 没有任何保证或条件,无论是快递还是 暗指的。有关特定语言的管理,请参见许可证 许可下的权限和限制。