randomSplit pyspark更改datafram的值

2024-04-26 20:58:46 发布

您现在位置:Python中文网/ 问答频道 /正文

我在PySpark中有一个相当大的数据帧(100GB),我想把它分成一个培训、测试和验证集。这是一个关键点,我以前在它工作的地方做过,但这次尝试它时,它返回的数据帧的所有值都从实际值更改为1或0。 唯一从工作变为不工作的是,我删除了两个字符串列。 当包含字符串的列在dataframe中时,代码似乎按预期工作,即不更改dataframe的值。在

我在Jupyter笔记本上运行AWS-EMR-PySpark。在

dataframe.show()

收益率

^{pr2}$

没错。在

但随机拆分:

train, test, validation = dataframe.randomSplit([0.6, 0.3, 0.1], 13)
train.show()

收益率

+---+---+---+---+---+---+---+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+-----+-----+-----+-----+-----+-----+-----+-----+-----+
|c_3|c_4|c_5|c_6|c_7|c_8|c_9|c_10|c_11|c_12|c_13|c_14|c_15|c_16|c_17|c_18|c_19|c_20|c_21|c_22|c_23|c_24|c_25|c_26|c_27|c_28|c_29|c_30|c_31|c_32|c_33|c_34|c_35|c_36|c_37|c_38|c_39|c_40|c_41|c_42|c_43|c_44|c_45|c_46|c_47|c_48|c_49|c_50|c_51|c_52|c_53|c_54|c_55|c_56|c_57|c_58|c_59|c_60|c_61|c_62|c_63|c_64|c_65|c_66|c_67|c_68|c_69|c_70|c_71|c_72|c_73|c_74|c_75|c_76|c_77|c_78|c_79|c_80|c_81|c_82|c_83|c_84|c_85|c_86|c_87|c_88|c_89|c_90|c_91|c_92|c_93|c_94|c_95|c_96|c_97|c_98|c_99|c_100|c_101|c_102|c_103|c_104|c_105|c_106|c_107|c_108|
+---+---+---+---+---+---+---+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+-----+-----+-----+-----+-----+-----+-----+-----+-----+
|0.0|1.0|1.0|0.0|1.0|0.0|0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 1.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0|   0| 0.0| 0.0| 1.0| 0.0| 1.0| 0.0| 1.0| 0.0| 0.0| 1.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0|  0.0|  0.0|  0.0|  0.0|  0.0|  0.0|  0.0|  0.0|  1.0|
|0.0|1.0|1.0|0.0|1.0|0.0|0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 1.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0|   0| 0.0| 0.0| 1.0| 0.0| 1.0| 0.0| 1.0| 0.0| 0.0| 1.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0|  0.0|  0.0|  0.0|  0.0|  0.0|  0.0|  0.0|  0.0|  1.0|... etc

我在任何地方都找不到有类似问题的人。在


Tags: 数据字符串代码awsdataframeshow地方笔记本