你好,我有示例代码:
for column in position:
myData = dataSplit.map(lambda arr: (arr[column]))\
.map(lambda line: line.split(','))\
.map(lambda fields: ("Column", fields[0]))\
.map(lambda (column, value) : value)\
.filter(lambda line : filterWithAccum(line))\
.map(lambda (value) : float(value))\
.persist(StorageLevel.MEMORY_AND_DISK)
results.append(myData.sum())
results.append(myData.stats())
results.append(myData.variance())
results.append(myData.sampleStdev())
results.append(myData.sampleVariance())
有没有一种方法可以在一个多个函数中运行,而不是每个1个函数运行5个过程?坚持可以节省很多时间,但我觉得必须有更好的方法来浓缩这些。我最初有.min().max().mean(),但是.stats()为您做了这些,所以已经压缩了一些。在
我不明白你的问题,但是}字段。所以你能做到
.stats()
方法返回的StatCounter
对象已经有了sum
、variance
、sampleStddev
和{相关问题 更多 >
编程相关推荐