从Spark RDD中移除元素 - 问答 - Python中文网

从Spark RDD中移除元素

2024-05-16 19:46:00 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正在从一个文本文件构建一个RDD。有些行不符合我期望的格式，在这种情况下，我使用标记-1。

def myParser(line):
    try:
        # do something
    except:
        return (-1, -1), -1

lines = sc.textFile('path_to_file')
pairs = lines.map(myParser)

是否可以删除带有-1标记的行？如果没有，有什么解决办法？

Tags：标记 myparser return def 格式 line 情况 do

1条回答

网友

1楼 · 发布于 2024-05-16 19:46:00

我能想到的最干净的解决方案是使用flatMap丢弃格式错误的行：

def myParser(line):
    try:
        # do something
        return [result] # where result is the value you want to return
    except:
        return []

sc.textFile('path_to_file').flatMap(myParser)

另见What is the equivalent to scala.util.Try in pyspark?

也可以在map之后进行筛选：

pairs = lines.map(myParser).filter(lambda x: x != ((-1, -1), -1))

相关问题更多 >

编程相关推荐

热门问题

热门文章