一种ht/xml web抓取工具

libextract的Python项目详细描述


https://travis-ci.org/datalib/libextract.svg?branch=master
    ___ __              __                  __
   / (_) /_  ___  _  __/ /__________ ______/ /_
  / / / __ \/ _ \| |/_/ __/ ___/ __ `/ ___/ __/
 / / / /_/ /  __/>  </ /_/ /  / /_/ / /__/ /_
/_/_/_.___/\___/_/|_|\__/_/   \__,_/\___/\__/

libextract是一个statistics-enabled 数据提取库,用于处理HTML和XML文档并用 Python。源于eatiht, 提取算法通过一个简单的假设工作:数据显示为 重复元素的集合。你可以读到推理 here

概述

libextract.api.extract(文档,编码为utf-8,计数为5)
给定一个htmldocument,并可选地返回encoding。 可能包含数据的节点列表(默认为5个)。

安装

pip install libextract

用法

由于我们对“数据”的简单定义,我们打开了一个 接口方法。后期处理由您决定。

fromrequestsimportgetfromlibextract.apiimportextractr=get('http://en.wikipedia.org/wiki/Information_extraction')textnodes=list(extract(r.content))

使用lxml的内置方法进行后处理:

>>print(textnodes[0].text_content())Informationextraction(IE)isthetaskofautomaticallyextractingstructuredinformation...

提取算法对文章文本是不可知的 表格数据:

height_data=get("http://en.wikipedia.org/wiki/Human_height")tabs=list(extract(height_data.content))
>>[elem.text_content()forelemintabs[0].iter('th')]['Country/Region','Average male height','Average female height',...]

依赖性

lxml
statscounter

免责声明

该项目仍处于起步阶段,建议如下 我们将非常感谢这个图书馆能够和应该做些什么

:)

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java以编程方式从TableLayout中删除所有行   Java Web Sart Ubuntu12.1。加载资源(图像)   人们如何让Java SPNEGO客户端在Windows中工作?   java Eclipselink:ObjectArrayMapping和ClassDescriptor   控制台中带有引号/空格的java Javafx命名参数   java创建服务失败:找不到对象?   java Hazelcast:如何在测试期间禁用自动发现?   使用TuckyUrlRewriteFilter rermoteaddr的java块IP   javascript如何在angular 4中进行同步http调用   输入字符串的java排列   java Jenkins不是以Xrs Xmx2048m XX:MaxPermSize=512m(windows)开始的   AWS EMR上的java avro错误   java从两个ArrayList中提取特定连接的对象,组合这些相关对象并从子类中打印   java从主题中删除什么时间点消息?   谷歌像素设备上的java InvalidKeyException   java如何在执行测试后重建项目   java Android 2.2 readUTF()socket问题   按下安卓设备上的“后退”按钮后java Toast没有完成?