summly的开源实现

wanish的Python项目详细描述


Code Climate

关于

这个包允许您通过缩小文章的大小来总结文本 几句话保留了课文的思想。

除此之外,软件包还从文档中提取以下内容:

  1. 文章的规范url
  2. 文章标题
  3. 描述本文的图像的url
  4. 去除文档中过多的信息(页眉、页脚, 导航、广告等)并基于 schema.org的结构化数据

DEMO

安装

easy_install wanish
or
pip install wanish

用法

fromwanishimportWanishwanish=Wanish()wanish.perform_url(document_url)# getting doc's source canonical urlurl=wanish.url# getting document's titletitle=wanish.title# getting url of related image if document has itimage_url=wanish.image_url# getting two-letter code of the document's language (en, de, es...)language_code=wanish.language# getting a clean html page of a document with articleclean_html=wanish.clean_html# getting a short summarized description of the article reduced to several sentences (5 by default)description=wanish.description

wanish()类的可用Kwarg选项(都是可选的):

wanish=Wanish(url=document_url,positive_keywords=["main","story"],negative_keywords=["banner","adv","similar","top-ad"],summary_sentences_qty=5,headers={'user-agent':'test-purposes/0.0.1'})
  • url:允许在构造函数中传递文档的url。如果设置了, 然后它将自动启动self。 初始化。默认为“无”。
  • 正关键字:类中正搜索模式的列表 和id,例如:[“main”,“story”]。默认为“无”。
  • 负关键字:类中负搜索模式的列表 和id,例如:[“banner”,“adv”,“similar”,“top ad”]。 默认为“无”。
  • {STR 1 } $ SimulyYangSuthEngsEsQuQT:<强/>最大句子数量 文件的摘要文本。默认设置为5。
  • headers:获取请求的其他自定义头的dict 获取文章的网页。默认为“无”。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java对ServiceListener和ServiceTracker调用提供了哪些排序保证?   java找不到方法格式的符号(DateTimeFormatter)?   mysql有没有一种方法可以将TCPDump输出到一个文件中,并用Java对其进行过滤,每5秒钟用新数据覆盖一次该文件?   java如何最好地配置用户上传支持文件的上传位置   java我在Android上使用OData4j,我无法获取实体   JPA实体关系简单示例中的java获取错误   JAVANoClassDefFoundError:安卓。应用程序。用法安卓中的UsageStatsManager   Eclipse中javaoo代码分析   java MethodVisitor抛出类格式错误   java为什么在从ViewModel调用时,改型排队不起作用?   调试小程序Java控制台:删除跟踪消息大小限制   java复杂安卓活动动画   java如何在使用JDOM2解析XML时忽略注释内容   java通过循环创建文本字段   即使在bufferedwriter关闭后也未发现java文件异常   单链表恢复中的java错误