我试图在Pyspark中使用groupBy()生成一个操作,但是我遇到了下一个问题:
我有一个dataframe(df1),它有3个属性:attrA、attrB和attrC。我只想在数据帧上应用groupBy操作,只考虑attrA和attrB属性。当然,当groupBy(attr1,attr2)应用于df1时,它会生成一组彼此相等的实例。在
我想要的是:
如果我应用groupBy()操作,并且一些实例相等,我想用这些组生成一个独立的数据帧,如果有不相等的实例,那么我希望在另一个具有3个属性的数据帧中保存这些实例:attr1、attr2和attr3(不用于groupBy)。在
有可能吗?在
输出:
^{pr2}$以及
相关问题 更多 >
编程相关推荐