使您的数据更加生动的工具。
datajazz的Python项目详细描述
数据爵士
使您的数据更加生动的工具。
datajazz是一个用于操作和优化数据以进行分析、机器学习、提取、转换和加载(etl)的工具包。
贡献
datajazz是一个开源项目,它是为了更好地服务于数据科学和机器学习社区而创建和维护的。请随时提交拉动请求,为项目作出贡献。通过参与,您将遵守datajazz的code of conduct。
安装
pip install datajazz
示例用法
创建具有不同数据类型的数据帧
import pandas as pd
import numpy as np
rng = pd.date_range('2015-02-24', periods=5, freq='20H')
df = pd.DataFrame({ 'Start_Time': rng, 'Values': np.random.randn(len(rng)), 'Categories': ['A']*len(rng) })
df.head()
创建时间特性
import datajazz as dj
df = dj.timeoftime(df)
一个热编码分类列
import datajazz as dj
df = dj.onehot_categories(df)
删除多余的行和列
import datajazz as dj
df = dj.remove_redundancies(df)