我试图修改我的文件后,从HDFS使用pyspark获取它,然后我想将它保存在HDFS中,因为我已经编写了下面的代码。在
代码:
import subprocess
from subprocess import Popen, PIPE
from pyspark import SparkContext
cat = sc.textFile("/user/root/parsed.txt")
hrk = "@"
for line in cat.collect():
if (code == "ID"):
line =line.strip() + "|"+hrk
line.saveAsTextFile("/user/root/testsprk")
print(line)
但当我运行代码时,我得到了低于错误。在
错误:
^{pr2}$我知道我的行有一些问题,但我无法修复它。在
因为您正在收集所有数据,这意味着collection不是RDD,而是普通的list和line只是一个字符串。在
你不应该收集司机的所有数据。相反,请使用
RDD.map
,然后使用RDD.saveAsTextFile
相关问题 更多 >
编程相关推荐