将函数传递给spark，spark使用pysp读取S3文件

class telco_cn: def __init__(self, sc): self.sc = sc def decode_module(msg): df=spark.read.json(msg) return df def consumer_input(self, sc, k_topic): a = sc.parallelize(['s3://bucket1/1575158401-51e09537-0ce5-c775-6beb-fd1b0a568e15.json']) d = a.map(lambda x: telco_cn.decode_module(x)).collect() print (d) if __name__ == "__main__": cn = telco_cn(sc) cn.consumer_input(sc, '')

1条回答

网友

1楼 · 发布于 2024-04-16 19:35:08

您正试图从RDD上的map操作中调用spark.read.json。由于此映射操作将在Spark的executor/worker节点上执行，因此不能在映射中引用SparkContext/SparkSession变量（在Spark驱动程序上定义）。这就是错误消息试图告诉您的内容。你知道吗

为什么不直接打电话给df=spark.read.json('s3://bucket1/1575158401-51e09537-0ce5-c775-6beb-fd1b0a568e15.json')？你知道吗

编程相关推荐

java Selenium用于返回错误组织。openqa。硒。WebDriverException:未知错误：无法确定加载状态
OS X Lion上的java Eclipse Indigo类型延迟
java设备上培训：无法创建解释器：Op内置代码超出范围：142。您是否将旧的TFLite二进制文件与较新的型号一起使用？
keylistener在java中通过键listener将光标移动到下一个文本字段
POM中的java错误。xml文件，即使在清理{users}/之后。m2/用于*上次更新文件的存储库
java如何防止Spring Boot/Tomcat（Java8）进程被OOMkilled？
java如何创建非辅助依赖关系？
java树集迭代的时间复杂度是多少？
LinuxPresto+如何将默认java版本设置为JDK11并验证presto是否真正使用了java11
sql server 2008换行转义序列在Java中没有以正确的方式回避

相关问题更多 >

编程相关推荐

热门问题

热门文章