在PySpark数据框中为特定单元格分配值

df = spark.createDataFrame( [ (1, 1.87, 'new_york'), (4, 2.76, 'la'), (6, 3.3, 'boston'), (8, 4.1, 'detroit'), (2, 5.70, 'miami'), (3, 6.320, 'atlanta'), (1, 6.1, 'houston') ], ('variable_1', "variable_2", "variable_3") )

2条回答

网友

1楼 · 编辑于 2024-05-15 08:02:21

可以使用底层RDD创建行号：

from pyspark.sql import Row

# Function to update dataframe row with a rownumber
def create_rownum(ziprow):
    row, index=ziprow
    row=row.asDict()
    row['rownum']= index
    return(Row(**row))

# First create a rownumber then add to dataframe
df.rdd.zipWithIndex().map(create_rownum).toDF().show()

现在可以过滤DataFrame以获得所需的行号。在

网友

2楼 · 编辑于 2024-05-15 08:02:21

SparkDataFrames是不可变的，不提供随机访问，严格地说是无序的。因此：

你不能分配任何东西（因为不可变的属性）。在
无法访问特定行（因为没有随机访问）。在
行“索引”定义不好（因为无序）。在

你能做的是，用新列创建一个新的数据帧，用一些条件表达式替换现有的数据帧，这些条件表达式已经包含在你找到的答案中。在

而且，monotonically_increasing_id不添加索引（行号）。它添加单调递增的数字，不一定是连续的或从任何特定值开始（如果是空分区）。在

相关问题更多 >

编程相关推荐

热门问题

热门文章