我是新来的PySpark,我想知道我怎么能做到这一点。感谢任何帮助。
我有这个RDD例如:
[[u'merit', u'release', u'appearance'], [u'www.bonsai.wbff.org'], [u'whitepages.com'], [u'the', u'childs', u'wonderland', u'company'], [u'lottery']]
我试着拥有:
[[(u'merit',1), (u'release',1), (u'appearance',1)], [(u'www.bonsai.wbff.org',1)], [(u'whitepages.com',1)], [(u'the',1), (u'childs',1), (u'wonderland',1), (u'company',1)], [(u'lottery',1)]]
但我所做的一切,要么让我得到这样的结果:
[[u'merit', u'release', u'appearance',1], [u'www.bonsai.wbff.org',1], [u'whitepages.com',1], [u'the', u'childs', u'wonderland', u'company',1], [u'lottery',1]]
或者这些错误:
TypeError: 'PipelinedRDD' object is not iterable
AttributeError: 'list' object has no attribute 'foreach'
-或split
,take
等我试过这个:
rdd1=rdd.map(lambda r : (r,1))
我有第一个结果:
[u'merit', u'release', u'appearance',1], [u'www.bonsai.wbff.org',1], [u'whitepages.com',1], [u'the', u'childs', u'wonderland', u'company',1], [u'lottery',1]]
rdd1=rdd.map(lambda r : (r[:][0],1))
每行的第一个字,不是我想要的
for row in rdd.collect() : row.foreach(lambda x : (x,1))
# AttributeError: 'list' object has no attribute 'foreach'
rdd3.take(100).foreach( lambda a : (a.foreach( lambda e : print(e,1))))
# AttributeError: 'list' object has no attribute 'foreach'
要打印
collect
并在本地迭代:一般迭代:
相关问题 更多 >
编程相关推荐