数据科学用unix管件
smalldata的Python项目详细描述
用于统计的Unix管件
在寻找command line data science的过程中, 此工具包包含三个用于unix管道的命令行实用程序。
如果没有参数运行,所有三个进程stdin到stdout都输出其docstring。
python 3是必需的。
sd_c(小数据计数)
是正则表达式计数器筛选器,包含在smalldata/counter.py
中。请参阅docstring以获取进一步帮助。
sd_g(smalldata groupby)
连接stdin中与smalldata/groupby.py
中包含的正则表达式匹配的行。请参阅docstring。
sd_e(小数据提取)
本着RegExSerDe的精神,这个
该工具使用正则表达式从自由格式文本文件生成csv文件。它包含在smalldata/extract.py
中并具有docstring。
其他有用的工具
如果你有csv文件,你应该最终签出q。
待办事项
一本食谱就好了。演示如何分析日志文件等。
历史记录
曾经生活在一个要点中:https://gist.github.com/martinvirtel/94cf47f64bf304e1c66598e93cd565c4