一组命令行工具,有助于获取、清理和探索数据。
datalog的Python项目详细描述
#数据学
[![生成状态](https://secure.travis-ci.org/michaeljoseph/datalogy.png)](http://travis-ci.org/michaeljoseph/datalogy) [![故事就绪](https://badge.waffle.io/michaeljoseph/datalogy.png?label=ready)](https://waffle.io/michaeljoseph/datalogy) [![PYPI版本](https://badge.fury.io/py/datalogy.png)](http://badge.fury.io/py/datalogy) [![下载次数](https://pypip.in/d/datalogy/badge.png)](https://crate.io/packages/datalogy?version=latest) [![代码覆盖率](https://coveralls.io/repos/michaeljoseph/datalogy/badge.png?branch=master)](https://coveralls.io/r/michaeljoseph/datalogy?分支=主)
啊![数据学](https://github.com/michaeljoseph/datalogy/raw/master/resources/datalogy.jpg)
一组python工具,它们有助于获取、清理 以及探索数据。
##刮擦
使用xpath查询或css3选择器提取html元素。
###示例用法
- curl -s http://en.wikipedia.org/wiki/List_of_sovereign_states |
- scrape -be ‘table.wikitable > tr > td > b > a’
##随机抽样
给定概率下从stdin到stdout的输出线 持续时间,以及线路之间的给定延迟。
###示例用法
seq 100 | random-sample -r 20% -d 1000
##测试
安装开发要求:
pip install -r requirements.txt
使用以下命令运行测试:
nosetests
在项目中添加:
flake8 datalogy tests
##API文档
生成文档:
cd docs && PYTHONPATH=.. make singlehtml