机器学习中的数据帧变换
tdml的Python项目详细描述
用于机器学习的转换数据帧
一个轻量级且易于使用的Python包,可以将数据帧转换为机器学习友好的数据格式。在
当前的数据帧,包括Pandas和PySpark,被广泛用于处理表格数据。这些包为数据处理提供了丰富的功能和优化。但是在处理之后,数据通常被输入到机器学习或深度学习模型中,这些模型是由其他ML包构造的。在这一步中,用户需要花费时间将数据帧转换为数组或张量,将数据拆分为多个集合,将类别数据映射为整数,甚至用向量表示文本数据。为了使整个过程更加高效,TDML通过解决前面提到的难题来连接数据帧和ML框架。目前,TDML提供的功能包括:
- 自动将数据帧(Pandas或PySpark)转换为ML框架(NumPy、PyTorch或TensorFlow)数组或张量。在
- 将分类数据映射为整数,按词包表示文本数据,支持文本转换的自定义项。在
- 通过一行代码将转换后的数据拆分为多个集合(列车测试或列车验证测试)。在
- 支持拆分后列车组的重组。在
示例
cd examples/numpy
python simple_sklearn_regression.py
有关更多示例,请转到examples文件夹。在
测试
请参考tests。在
联系人
- 项目
标签: