PySpark，避免多次使用Column方法调用dataframe后出现StackOverflowException

datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "database_name", table_name = "table_name", transformation_ctx = "datasource0") df = datasource0.toDF() df = df.withColumn('item_name', F.regexp_replace(F.col('item_name'), '^foo$', 'bar')) df = df.withColumn('item_name', F.regexp_replace(F.col('item_name'), '^foo$', 'bar')) df = df.withColumn('item_name', F.regexp_replace(F.col('item_name'), '^foo$', 'bar')) df = df.withColumn('item_name', F.regexp_replace(F.col('item_name'), '^foo$', 'bar')) ... # and call hundreds times

1条回答

网友

1楼 · 发布于 2024-05-12 15:32:16

根据thisyes withColumn将导致与内存相关的问题，这可以通过使用select来防止，如下所示：

df.select(F.regexp_replace(F.col('item_name')))

如果要对多个列应用相同的设置，则可以如下所示：

df.select(F.regexp_replace(F.col('item_name')),F.regexp_replace(F.col('item_name')),.........upto n number of columns)

编程相关推荐

java传递位置作为FragmentPagerAdapter中片段的参数
html Java Jsoup循环打印
java如何使用FileOutputStream写入数据而不丢失旧数据？
java在测试用例类/方法中执行sql before/after/in
java在javafx中注册鼠标处理程序，但处理程序不是内联的
Android嵌入了一个C++库的java代码，不需要TopPLE程序来嵌入它？
片段类内部的java ProgressBar导致setMax方法出现NullPointerException？
带有google app engine的java Activator Play框架
java如何解析星级而不是字符串？
java如何在基本实体中定义通用主键字段？

相关问题更多 >

编程相关推荐

热门问题

热门文章