蟒蛇提取物

extractcontent3的Python项目详细描述


提取内容3
==


…图片::https://img.shields.io/badge/license bsd%202--子句orange.svg
:目标:https://opensource.org/licenses/bsd-2-clause

…图片::https://img.shields.io/badge/python-3.6-blue.svg

…图片::https://travis-ci.org/kanjirz50/python-extractcontent3.svg?branch=master
:目标:https://travis ci.org/kanjirz50/python-extraccontent3
萃取物含量红宝石代码块:python











7html
提取器.分析(html)
文本,title=extractor.as_text()
html,title=extractor.as_html()
title=extractor.extract_title(html)

代码块::bash
pypi
$pip install extractcontent3

$pip install git+https://github.com/kanjirz50/python-extractcontent3

code-block:: python

"""
オプションの種類:
名称 / デフォルト値

threshold / 100
本文と見なすスコアの閾値

min_length / 80
評価を行うブロック長の最小値

decay_factor / 0.73
減衰係数
小さいほど先頭に近いブロックのスコアが高くなります

continuous_factor / 1.62
連続ブロック係数
大きいほどブロックを連続と判定しにくくなる

punctuation_weight / 10
句読点に対するスコア 
标点符号IS)([\u3001\u3002\uff01\uff0c\uff0e\uff1f].[^A-ZA-Z0-9],[^0-9]!|\?)“
i)Copyright|All Rights Reserved"
フッターに含まれる特徴的なキーワードを指定した正規表現

debug / False
Trueの場合、ブロック情報を出力
"""

謝辞
----

オリジナル版の作成者やForkで改良を加えた方々に感謝します。

- 原始实现的版权::(c)2007/2008/2009 Nakatani Shuyo/Cybozu Labs Inc.保留所有权利
-http://rubyforge.org/projects/extractcontent/
-http://labs.cybozu.co.jp/blog/Nakatani/2007/09/web-1.html
-https://github.com/petitviolet/python extractcontent
-https://github.com/yono/python extractcontent







欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
gwt java。lang.UnsupportedClassVersionError:不受支持的专业。小版本51.0   java XML解析器trycatch不工作   java Jackson MRBean不工作,无法构造实例   javascript是检查参数的更好方法吗?   java在发生冲突时从ArrayList中删除对象   JavaSpringWebFlux和KeyClope JWTRESTAPI   java Selected选项在微调器中不可见   java在增加分区后,有没有办法在ApacheKafka中保持顺序?   java添加SourceRoot会导致spring启动应用程序出错   java Spring引导:任何bean都没有实现ReactiveCrudepository   java无法注册我的自定义AbstractAnnotationConfigDispatcherServletInitializer   TCP连接上的java Caesar密码   java树集排序不正确   java如何在自定义查询中加载@ElementCollection?