机器学习中的数据帧变换

tdml的Python项目详细描述


用于机器学习的转换数据帧

versionLicense

一个轻量级且易于使用的Python包,可以将数据帧转换为机器学习友好的数据格式。在

当前的数据帧,包括Pandas和PySpark,被广泛用于处理表格数据。这些包为数据处理提供了丰富的功能和优化。但是在处理之后,数据通常被输入到机器学习或深度学习模型中,这些模型是由其他ML包构造的。在这一步中,用户需要花费时间将数据帧转换为数组或张量,将数据拆分为多个集合,将类别数据映射为整数,甚至用向量表示文本数据。为了使整个过程更加高效,TDML通过解决前面提到的难题来连接数据帧和ML框架。目前,TDML提供的功能包括:

  • 自动将数据帧(Pandas或PySpark)转换为ML框架(NumPy、PyTorch或TensorFlow)数组或张量。在
  • 将分类数据映射为整数,按词包表示文本数据,支持文本转换的自定义项。在
  • 通过一行代码将转换后的数据拆分为多个集合(列车测试或列车验证测试)。在
  • 支持拆分后列车组的重组。在

示例

cd examples/numpy
python simple_sklearn_regression.py

有关更多示例,请转到examples文件夹。在

测试

请参考tests。在

联系人

zecheng@cs.stanford.edu

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何从数组中打印int值?   prepared语句Java中奇怪的异常PreparedStatement:参数索引超出范围   封装如何在OOP Java中为主方法编码?   java某些手机显示快捷方式徽章需要什么权限?   java TextView不会随OnItemSelectedListener更改   java注释处理器不会自动触发吗?   java Spring JPA如何计算外键数   c#对于这个简单的OOAD问题,哪种设计最优雅?   java如何处理while循环中的异常?   Android Studio错误:进程'command'/home/draven/Downloads/安卓studio/jre/bin/java''结束,退出值为非零2   在使用Payara服务器的Vaadin应用程序中导航到根目录时,java将丢失上下文根目录   使用contentType application/json而不是application/jsonpatch+json的java修补程序   带有tomcat的java HAproxy连接不足   Java:在应用过滤器后创建一个简单的通用方法进行计数   java如何使用多态性创建一个实例化对象的方法,然后用它们高效地填充ArrayList?