如何遍历“pyspark”中特定resu的列表

2024-05-14 11:04:05 发布

您现在位置：Python中文网/ 问答频道 /正文

494

网友

男 | 程序猿一只，喜欢编程写python代码。

我是新来的PySpark，我想知道我怎么能做到这一点。感谢任何帮助。

我有这个RDD例如：

[[u'merit', u'release', u'appearance'], [u'www.bonsai.wbff.org'], [u'whitepages.com'], [u'the', u'childs', u'wonderland', u'company'], [u'lottery']]

我试着拥有：

[[(u'merit',1), (u'release',1), (u'appearance',1)], [(u'www.bonsai.wbff.org',1)], [(u'whitepages.com',1)], [(u'the',1), (u'childs',1), (u'wonderland',1), (u'company',1)], [(u'lottery',1)]]

但我所做的一切，要么让我得到这样的结果：

[[u'merit', u'release', u'appearance',1], [u'www.bonsai.wbff.org',1], [u'whitepages.com',1], [u'the', u'childs', u'wonderland', u'company',1], [u'lottery',1]]

或者这些错误：

TypeError: 'PipelinedRDD' object is not iterable
AttributeError: 'list' object has no attribute 'foreach'-或split，take等

我试过这个：

rdd1=rdd.map(lambda r : (r,1))

我有第一个结果：

[u'merit', u'release', u'appearance',1], [u'www.bonsai.wbff.org',1], [u'whitepages.com',1], [u'the', u'childs', u'wonderland', u'company',1], [u'lottery',1]]

rdd1=rdd.map(lambda r : (r[:][0],1))

每行的第一个字，不是我想要的

for row in rdd.collect() : row.foreach(lambda x : (x,1)) 
# AttributeError: 'list' object has no attribute 'foreach'

rdd3.take(100).foreach( lambda a : (a.foreach( lambda e : print(e,1)))) 
# AttributeError: 'list' object has no attribute 'foreach'

Tags： the lambda org com release www company foreach

1条回答

网友

1楼 · 发布于 2024-05-14 11:04:05

要打印collect并在本地迭代：

for xs in rdd3.take(100):
    for x in xs:
        print(x)

一般迭代：

rdd.flatMap(lambda xs: [(x, 1) for x in xs])

如何遍历“pyspark”中特定resu的列表

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何遍历“pyspark”中特定resu的列表

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >