用于从json数据集自动提取特征的库

datapot的Python项目详细描述


Build Status用于半结构化机器学习的开源工具 从JSON创建数字对象特性矩阵的数据关于 数据罐是使数据准备过程和特征 提取自动化,简单有效

用法

安装数据罐:

$ git clone https://github.com/bashalex/datapot.git
$ cd datapot
$ pip install .

创建一个datapot对象,只需编写以下命令:

>>>importdatapotasdp>>>data=dp.DataPot()

DataPot有两种主要方法:

  • 适合()
  • 转换()

方法fit(self, data, limit)遍历前n个对象(n= 限制),将可能的功能传递给变压器每台变压器 评估当前字段或多个字段中的要素是否可以 创建。结果,创建了一个特征和变形金刚的dict

fit()应用于json文件:

>>>f=open('data/matches_test.jsonlines','r')>>>data.fit(f,limit=100)>>>dataDataPotclassinstance-numberoffeatureswithouttransformation:806-numberofnewfeatures:315featurestotransform:(u'players.0.gold_t',[ComplexTransformer])(u'picks_bans.0.is_pick',[BoolToIntTransformer])(u'players.0.kills_log.0.unit',[TfidfTransformer])(u'players.1.xp_t',[ComplexTransformer])(u'picks_bans.1.is_pick',[BoolToIntTransformer])(u'players.1.kills_log.0.unit',[TfidfTransformer])...

方法transform(self, data, verbose)生成熊猫。数据帧 使用在fit()调用中检测到的新功能。If参数 verbose为true,在功能期间打印进度说明 提取。

>>>df=data.transform(f,verbose=False)fittransformers...OKnumofnewfeatures:315

示例

查找使用Datapot的more examples 不同的数据集和更具体的变压器。

功能

datapot提供了许多从json-s中提取特性的方法。

可处理的数据类型:-布尔-数字数组(转换 数组的总和除以训练集中数组的平均长度)- 时间序列 时间序列)-时间戳(日期、时间、星期几、月几等)- 文本(单词包tf idf,word2vec)-分类(一个热编码, 尺寸减小)

作者

  • 亚历克斯·巴什
  • Yuriy mokriy
  • 尼基塔·萨维利耶夫
  • 米查尔罗森瓦尔德
  • 彼得罗莫夫

Datapot是the Higher School of Economicsthe Faculty of Computer Science的一个课程工作项目

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
在Java中从本地文件系统导入文件   spring boot如何在Java SpringBoot项目中集成Olingo(Odata)   java查找连续数组中缺少的第k个元素(超过时间限制)   java为什么在mySql中插入1/2行时会得到2/4行   java不能在静态上下文中使用它   File Observer方法的java My onEvent()部分不起作用   java Netty NioSocketChannel在多线程写入时收到中断消息   java将文件夹与父文件夹一起复制   java我的TictaToe代码出了什么问题?如何检查已采取的措施?   java Swing JTable更新   java如何将cordinates查找为int   如何使用selenium和java在firefox中打开新的空选项卡   java Gradle构建输出Jar未运行   java没有GET/WEBINF/jsp/login的映射。jsp