Python libextract包_程序模块 - PyPI

一种ht/xml web抓取工具

libextract的Python项目详细描述

https://travis-ci.org/datalib/libextract.svg?branch=master

    ___ __              __                  __
   / (_) /_  ___  _  __/ /__________ ______/ /_
  / / / __ \/ _ \| |/_/ __/ ___/ __ `/ ___/ __/
 / / / /_/ /  __/>  </ /_/ /  / /_/ / /__/ /_
/_/_/_.___/\___/_/|_|\__/_/   \__,_/\___/\__/

libextract是一个statistics-enabled 数据提取库，用于处理HTML和XML文档并用 Python。源于eatiht，提取算法通过一个简单的假设工作：数据显示为重复元素的集合。你可以读到推理 here。

概述

libextract.api.extract（文档，编码为utf-8，计数为5）: 给定一个htmldocument，并可选地返回encoding。可能包含数据的节点列表（默认为5个）。

安装

pip install libextract

用法

由于我们对“数据”的简单定义，我们打开了一个接口方法。后期处理由您决定。

fromrequestsimportgetfromlibextract.apiimportextractr=get('http://en.wikipedia.org/wiki/Information_extraction')textnodes=list(extract(r.content))

使用lxml的内置方法进行后处理：

>>print(textnodes[0].text_content())Informationextraction(IE)isthetaskofautomaticallyextractingstructuredinformation...

提取算法对文章文本是不可知的表格数据：

height_data=get("http://en.wikipedia.org/wiki/Human_height")tabs=list(extract(height_data.content))

>>[elem.text_content()forelemintabs[0].iter('th')]['Country/Region','Average male height','Average female height',...]

依赖性

lxml
statscounter

免责声明

该项目仍处于起步阶段，建议如下我们将非常感谢这个图书馆能够和应该做些什么

：）

欢迎加入QQ群-->： 979659372

推荐PyPI第三方库

导航栏
项目描述
版本历史
下载文件
项目链接
首页
标签
许可证: BSD许可证（BSD 3条款）
作者信息:: 暂无
维护者
im-rodrigo
最新PyPI项目
italian_vip_says
UFx
vofs
fake_item_generator
NerEva
django-monologue
fio_product_attribute_strict
climailsystem
pyshape
tbb-devel
npy-append-arra
anthill.tal.macrorenderer
odoo11-addon-stock-a
uuuu
contextil
fyl_nester
appomatic_renderable
teacher
chuletas
slackbot_ce
最新Python常见问题
我是否正确构建了这个递归神经网络
我是否正确理解acquire和realease是如何在python库“线程化”中工作的
我是否正确理解Keras中的批次大小？
我是否正确理解PyTorch的加法和乘法？
我是否正确组织了我的Django应用程序？
我是否正确计算执行时间？如果是这样，那么并行处理将花费更长的时间。这看起来很奇怪
我是否每次创建新项目时都必须在PyCharm中安装numpy？（安装而不是导入）
我是否每次运行jupyter笔记本时都必须重新启动内核？
我是否用python安装了socks模块？
我是否真的需要知道超过一种语言，如果我想要制作网页应用程序？
我是否缺少spaCy柠檬化中的预处理功能？
我是否缺少给定状态下操作的检查？
我是否能够使用函数“count（）”来查找密码中大写字母的数量(（Python）
我是否能够使用用户输入作为colorama模块中的颜色？
我是否能够创建一个能够添加新Django.contrib.auth公司没有登录到管理面板的用户？

libextract 0.0.12

libextract的Python项目详细描述

概述

安装

用法

依赖性

免责声明

推荐PyPI第三方库

odoo11-addon-website-sale-secondary-unit

odoo10-addon-web-widget-slickroom

file_encryptor

jderobot-interfaces-kibotics

genesis

tod

rest-api-lib-creator

inqbus.zopeftp

webapi

pytest-spec

tweebot

irisclient

ehour

galaxy-updater

odoo12-addon-account-partner-reconcile

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

libextract 0.0.12

libextract的Python项目详细描述

概述

安装

用法

依赖性

免责声明

推荐PyPI第三方库

odoo11-addon-website-sale-secondary-unit

odoo10-addon-web-widget-slickroom

file_encryptor

jderobot-interfaces-kibotics

genesis

tod

rest-api-lib-creator

inqbus.zopeftp

webapi

pytest-spec

tweebot

irisclient

ehour

galaxy-updater

odoo12-addon-account-partner-reconcile

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签