用于从json数据集自动提取特征的库
datapot的Python项目详细描述
用于半结构化机器学习的开源工具 从JSON创建数字对象特性矩阵的数据关于 数据罐是使数据准备过程和特征 提取自动化,简单有效
用法
安装数据罐:
$ git clone https://github.com/bashalex/datapot.git
$ cd datapot
$ pip install .
要创建一个datapot对象,只需编写以下命令:
>>>importdatapotasdp>>>data=dp.DataPot()
DataPot有两种主要方法:
- 适合()
- 转换()
方法fit(self, data, limit)遍历前n个对象(n= 限制),将可能的功能传递给变压器每台变压器 评估当前字段或多个字段中的要素是否可以 创建。结果,创建了一个特征和变形金刚的dict
将fit()应用于json文件:
>>>f=open('data/matches_test.jsonlines','r')>>>data.fit(f,limit=100)>>>dataDataPotclassinstance-numberoffeatureswithouttransformation:806-numberofnewfeatures:315featurestotransform:(u'players.0.gold_t',[ComplexTransformer])(u'picks_bans.0.is_pick',[BoolToIntTransformer])(u'players.0.kills_log.0.unit',[TfidfTransformer])(u'players.1.xp_t',[ComplexTransformer])(u'picks_bans.1.is_pick',[BoolToIntTransformer])(u'players.1.kills_log.0.unit',[TfidfTransformer])...
方法transform(self, data, verbose)生成熊猫。数据帧 使用在fit()调用中检测到的新功能。If参数 verbose为true,在功能期间打印进度说明 提取。
>>>df=data.transform(f,verbose=False)fittransformers...OKnumofnewfeatures:315
示例
查找使用Datapot的more examples 不同的数据集和更具体的变压器。
功能
datapot提供了许多从json-s中提取特性的方法。
可处理的数据类型:-布尔-数字数组(转换 数组的总和除以训练集中数组的平均长度)- 时间序列 时间序列)-时间戳(日期、时间、星期几、月几等)- 文本(单词包tf idf,word2vec)-分类(一个热编码, 尺寸减小)