news fetch是一个开源的易于使用的新闻提取器,而且基本的nlp(清除文本、关键字、摘要)非常方便

news-fetch的Python项目详细描述


PyPI VersionCoverage StatusLicenseDocumentation Status

新闻获取

新闻获取是建立在news-please-Felix HamborgNewspaper3K-Lucas (欧阳象) Ou-Yang“谢谢”的基础上的。没有它们,你将很难提取在线报纸。此软件包包含我的Felix作品和Lucas作品提供的两个功能

NewsFetch是一个开源的、易于使用的新闻爬虫程序,它可以从几乎所有的新闻网站中提取结构化信息。。我创建此项是为了在刮取某些报纸时减少大部分NaN或“”或[]或“无”值。独立于平台并用python 3编写。这个包可以很容易地被程序员和开发人员用来为他们的程序提供对新闻数据的访问。

SourceLink
PyPI:https://pypi.org/project/news-fetch/
Repository:https://santhoshse7en.github.io/news-fetch/
Documentation:https://santhoshse7en.github.io/news-fetch_doc/

依赖关系

  • 新闻请
  • 新闻纸3K
  • 美化组4
  • 假用户代理
  • Chromedriver二进制
  • 假用户代理
  • 间距
  • 熊猫

依赖项安装

使用包管理器pip安装以下内容

pip install -r requirements.txt

用法

点击Github上的绿色下载按钮下载。若要从目标网站中提取URL,请调用google_search函数,只需解析关键字和报纸链接的参数。

>>>fromnewsfetch.newsimportgoogle_search>>>google=google_search('Alcoholics Anonymous','https://timesofindia.indiatimes.com/')

谷歌搜索结果网址目录

google

要获取所有新闻详细信息,请调用报社功能

>>>fromnewsfetch.newsimportnewspaper>>>news=newspaper('https://www.bbc.co.uk/news/world-48810070')

新闻目录

newsdir

>>>news.headline'g20 summit: trump and xi agree to restart us china trade talks'

贡献

欢迎拉取请求。对于重大变更,请先打开一个问题来讨论您希望更改的内容。

请确保根据需要更新测试。

许可证

MIT

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
多线程在java中是否可以自动创建线程?根据标准   java什么是模型。在playframework中刷新do(1.2.4)   java数据正在三个不同的适配器中被覆盖   当使用Java驱动程序更新MongoDB的数据时,数据库id被内部对象的_id替换   java调用vkCmdDraw会使用LWJGL导致本机崩溃   for循环中的java增量给出了不同的答案   java中用于密码验证的正则表达式,允许某些特殊字符,但不是必需的   安卓 Java ExecutorService任务/可调用未取消/中断   java Jmeter远程测试:。RemoteJMeterEngineImpl_存根(无安全管理器:RMI类加载程序已禁用)   java在drools drl中使用POJO的hashmap   带hibernate的java BigQuery   JAVA网StAX解析XML文件时出现异常   java ODK聚合未启动。多重例外   使用序列图进行java编码   moduleinfo中的java Javadoc注释   java Mockito when()。thenReturn()在返回空列表时返回Null   朱尼特和詹金斯组织。朱尼特。contrib。JAVAlang.system。内部的CheckExitCalled:尝试以状态0退出   java如何创建用户定义的JLabel,JTextField?