蟒蛇提取物
extractcontent3的Python项目详细描述
提取内容3
==
…图片::https://img.shields.io/badge/license bsd%202--子句orange.svg
:目标:https://opensource.org/licenses/bsd-2-clause
…图片::https://img.shields.io/badge/python-3.6-blue.svg
…图片::https://travis-ci.org/kanjirz50/python-extractcontent3.svg?branch=master
:目标:https://travis ci.org/kanjirz50/python-extraccontent3
萃取物含量红宝石代码块:python
7html
提取器.分析(html)
文本,title=extractor.as_text()
html,title=extractor.as_html()
title=extractor.extract_title(html)
代码块::bash
pypi
$pip install extractcontent3
$pip install git+https://github.com/kanjirz50/python-extractcontent3
code-block:: python
"""
オプションの種類:
名称 / デフォルト値
threshold / 100
本文と見なすスコアの閾値
min_length / 80
評価を行うブロック長の最小値
decay_factor / 0.73
減衰係数
小さいほど先頭に近いブロックのスコアが高くなります
continuous_factor / 1.62
連続ブロック係数
大きいほどブロックを連続と判定しにくくなる
punctuation_weight / 10
句読点に対するスコア
标点符号IS)([\u3001\u3002\uff01\uff0c\uff0e\uff1f].[^A-ZA-Z0-9],[^0-9]!|\?)“
i)Copyright|All Rights Reserved"
フッターに含まれる特徴的なキーワードを指定した正規表現
debug / False
Trueの場合、ブロック情報を出力
"""
謝辞
----
オリジナル版の作成者やForkで改良を加えた方々に感謝します。
- 原始实现的版权::(c)2007/2008/2009 Nakatani Shuyo/Cybozu Labs Inc.保留所有权利
-http://rubyforge.org/projects/extractcontent/
-http://labs.cybozu.co.jp/blog/Nakatani/2007/09/web-1.html
-https://github.com/petitviolet/python extractcontent
-https://github.com/yono/python extractcontent
==
…图片::https://img.shields.io/badge/license bsd%202--子句orange.svg
:目标:https://opensource.org/licenses/bsd-2-clause
…图片::https://img.shields.io/badge/python-3.6-blue.svg
…图片::https://travis-ci.org/kanjirz50/python-extractcontent3.svg?branch=master
:目标:https://travis ci.org/kanjirz50/python-extraccontent3
萃取物含量红宝石代码块:python
7html
提取器.分析(html)
文本,title=extractor.as_text()
html,title=extractor.as_html()
title=extractor.extract_title(html)
代码块::bash
pypi
$pip install extractcontent3
code-block:: python
"""
オプションの種類:
名称 / デフォルト値
threshold / 100
本文と見なすスコアの閾値
min_length / 80
評価を行うブロック長の最小値
decay_factor / 0.73
減衰係数
小さいほど先頭に近いブロックのスコアが高くなります
continuous_factor / 1.62
連続ブロック係数
大きいほどブロックを連続と判定しにくくなる
punctuation_weight / 10
句読点に対するスコア
标点符号IS)([\u3001\u3002\uff01\uff0c\uff0e\uff1f].[^A-ZA-Z0-9],[^0-9]!|\?)“
i)Copyright|All Rights Reserved"
フッターに含まれる特徴的なキーワードを指定した正規表現
debug / False
Trueの場合、ブロック情報を出力
"""
謝辞
----
オリジナル版の作成者やForkで改良を加えた方々に感謝します。
- 原始实现的版权::(c)2007/2008/2009 Nakatani Shuyo/Cybozu Labs Inc.保留所有权利
-http://rubyforge.org/projects/extractcontent/
-http://labs.cybozu.co.jp/blog/Nakatani/2007/09/web-1.html
-https://github.com/petitviolet/python extractcontent
-https://github.com/yono/python extractcontent