Python extractcontent3包_程序模块 - PyPI

蟒蛇提取物

extractcontent3的Python项目详细描述

提取内容3
==

…图片：：https://img.shields.io/badge/license bsd%202--子句orange.svg
：目标：https://opensource.org/licenses/bsd-2-clause

…图片：：https://img.shields.io/badge/python-3.6-blue.svg

…图片：：https://travis-ci.org/kanjirz50/python-extractcontent3.svg？branch=master
：目标：https://travis ci.org/kanjirz50/python-extraccontent3
萃取物含量红宝石代码块：python

7html
提取器.分析（html）
文本，title=extractor.as_text（）
html，title=extractor.as_html（）
title=extractor.extract_title（html）

代码块：：bash
pypi
$pip install extractcontent3

$pip install git+https://github.com/kanjirz50/python-extractcontent3

code-block:: python

"""
オプションの種類:
名称 / デフォルト値

threshold / 100
本文と見なすスコアの閾値

min_length / 80
評価を行うブロック長の最小値

decay_factor / 0.73
減衰係数
小さいほど先頭に近いブロックのスコアが高くなります

continuous_factor / 1.62
連続ブロック係数
大きいほどブロックを連続と判定しにくくなる

punctuation_weight / 10
句読点に対するスコア　
标点符号IS）（[\u3001\u3002\uff01\uff0c\uff0e\uff1f].[^A-ZA-Z0-9]，[^0-9]！|\？）“
i)Copyright|All Rights Reserved"
フッターに含まれる特徴的なキーワードを指定した正規表現

debug / False
Trueの場合、ブロック情報を出力
"""

謝辞
----

オリジナル版の作成者やForkで改良を加えた方々に感謝します。

- 原始实现的版权：：（c）2007/2008/2009 Nakatani Shuyo/Cybozu Labs Inc.保留所有权利
-http://rubyforge.org/projects/extractcontent/
-http://labs.cybozu.co.jp/blog/Nakatani/2007/09/web-1.html
-https://github.com/petitviolet/python extractcontent
-https://github.com/yono/python extractcontent

欢迎加入QQ群-->： 979659372

extractcontent3 0.0.2

extractcontent3的Python项目详细描述

推荐PyPI第三方库

tissueloc

boxyboi

daqpower

persistablemd5

MLMetrics

pynmet

vexbot

zhanglan

gamsxcc

opskit

sample-lib

pixelpin-auth-flask

cleverlab

secret-keeper

pactl

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

extractcontent3 0.0.2

extractcontent3的Python项目详细描述

推荐PyPI第三方库

tissueloc

boxyboi

daqpower

persistablemd5

MLMetrics

pynmet

vexbot

zhanglan

gamsxcc

opskit

sample-lib

pixelpin-auth-flask

cleverlab

secret-keeper

pactl

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签