news fetch是一个开源的易于使用的新闻提取器,而且基本的nlp(清除文本、关键字、摘要)非常方便
news-fetch的Python项目详细描述
新闻获取
新闻获取是建立在news-please-Felix Hamborg和Newspaper3K-Lucas (欧阳象) Ou-Yang“谢谢”的基础上的。没有它们,你将很难提取在线报纸。此软件包包含我的Felix作品和Lucas作品提供的两个功能
NewsFetch是一个开源的、易于使用的新闻爬虫程序,它可以从几乎所有的新闻网站中提取结构化信息。。我创建此项是为了在刮取某些报纸时减少大部分NaN或“”或[]或“无”值。独立于平台并用python 3编写。这个包可以很容易地被程序员和开发人员用来为他们的程序提供对新闻数据的访问。
Source | Link |
---|---|
PyPI: | https://pypi.org/project/news-fetch/ |
Repository: | https://santhoshse7en.github.io/news-fetch/ |
Documentation: | https://santhoshse7en.github.io/news-fetch_doc/ |
依赖关系
- 新闻请
- 新闻纸3K
- 美化组4
- 假用户代理
- 硒
- Chromedriver二进制
- 假用户代理
- 间距
- 熊猫
依赖项安装
使用包管理器pip安装以下内容
pip install -r requirements.txt
用法
点击Github上的绿色下载按钮下载。若要从目标网站中提取URL,请调用google_search函数,只需解析关键字和报纸链接的参数。
>>>fromnewsfetch.newsimportgoogle_search>>>google=google_search('Alcoholics Anonymous','https://timesofindia.indiatimes.com/')
谷歌搜索结果网址目录
要获取所有新闻详细信息,请调用报社功能
>>>fromnewsfetch.newsimportnewspaper>>>news=newspaper('https://www.bbc.co.uk/news/world-48810070')
新闻目录
>>>news.headline'g20 summit: trump and xi agree to restart us china trade talks'
贡献
欢迎拉取请求。对于重大变更,请先打开一个问题来讨论您希望更改的内容。
请确保根据需要更新测试。