PySpark在RDD上运行多个函数

for column in position: myData = dataSplit.map(lambda arr: (arr[column]))\ .map(lambda line: line.split(','))\ .map(lambda fields: ("Column", fields[0]))\ .map(lambda (column, value) : value)\ .filter(lambda line : filterWithAccum(line))\ .map(lambda (value) : float(value))\ .persist(StorageLevel.MEMORY_AND_DISK) results.append(myData.sum()) results.append(myData.stats()) results.append(myData.variance()) results.append(myData.sampleStdev()) results.append(myData.sampleVariance())

1条回答

网友

1楼 · 发布于 2024-04-23 11:11:38

我不明白你的问题，但是.stats()方法返回的StatCounter对象已经有了sum、variance、sampleStddev和{}字段。所以你能做到

statCounter = myData.stats()
results.append(statCounter.sum())
results.append(statCounter.min())
results.append(statCounter.variance())
results.append(statCounter.sampleStdev())
results.append(statCounter.sampleVariance())

编程相关推荐

如果字段相同，java共享对象的单个实例
if语句在从参数（JAVA）获取getDiscount（）时遇到问题
使用JanusGraph Java API和HBase时出现临时BackendException
java读取嵌套的yaml值而不传入根对象
java为什么我不能用这段代码从链表中删除第一个节点？
javascript为什么验证错误在旧的情况下会持续？
java如何在JSch SFTP上重新发布？
使用java将json转换为xml
java如何将EditText的值放入对话框
java Hibernate：与EmbeddedID重复的getter/setter？

相关问题更多 >

编程相关推荐

热门问题

热门文章