Python中文
首页
教程
问答
标签
搜索
登录
注册
(PySpark)reduceByKey之后的嵌套列表
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我相信这是很简单的事情,但我没有发现任何与此相关的东西。</p> <p>我的代码很简单:</p> <pre><code>... stream = stream.map(mapper) stream = stream.reduceByKey(reducer) ... </code></pre> <p>没什么特别的。输出如下:</p> <pre><code>... key1 value1 key2 [value2, value3] key3 [[value4, value5], value6] ... </code></pre> <p>等等。所以,有时我得到一个单位值(如果它是单值的话)。有时,嵌套列表可能非常非常深入(在我的简单测试数据中,深度为3层)。</p> <p>我试着搜索类似“flat”的源代码,但只找到了flatMap方法(据我所知)不是我需要的。</p> <p>我不知道为什么这些列表是嵌套的。我猜他们是由不同的流程(工人?)然后连在一起,没有压扁。</p> <p>当然,我可以用Python编写一个代码来展开列表并将其展平。但我相信这不是一个正常的情况-我认为几乎每个人都需要一个单位产出。</p> <p>找到不可迭代的值时,itertools.chain停止展开。换句话说,它仍然需要一些编码(前一段)。</p> <p>那么-如何使用PySpark的本机方法平展列表?</p> <p>谢谢</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>或者,<code>stream.groupByKey().mapValues(lambda x: list(x)).collect()</code>给出</p> <pre><code>key1 [value1] key2 [value2, value3] key3 [value4, value5, value6] </code></pre>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
使用登录请求.post导致“错误405不允许”
4 回答
使用登录进行Python web抓取
2 回答
使用登录进行抓取
1 回答
使用登录页面从网站抓取数据
7 回答
使用白色圆圈背景使图像更平滑
6 回答
使用百分位数删除Pandas数据帧中的异常值
1 回答
使用百分号进行Python字典操作
8 回答
使用百分比delimi的Python字符串模板
7 回答
使用百分比分割Numpy ndarray最有效的方法是什么?
6 回答
使用百分比分配和修改变量(计算)
2 回答
使用百分比单位绘制数据
1 回答
使用百分比在单个采购订单中组合不同的订单类型
9 回答
使用百分比将数据帧的子集与完整数据帧进行比较
10 回答
使用百分比形式的BBOX选项,而不是绝对像素PyScreenShot Python
9 回答
使用百分比登录列nam更新表
10 回答
使用百分比登录操作系统或者os.popen公司
7 回答
使用百分比计算:十进制还是可读?
8 回答
使用的dataset和dataloader加载数据时出错torch.utils.data公司. TypeError:类型为“type”的对象没有len()
8 回答
使用的Json无效json.dump文件在Python3
4 回答
使用的overwrite方法\r在python 3[PyCharm]中不起作用
9 回答