用python获取spark中联接数据中的键值对

2024-04-23 07:47:41 发布

您现在位置:Python中文网/ 问答频道 /正文

我加入了以下数据集的RDD 这是联接数据集中的前5行,这是联接的数据集 关键——后现代烹饪价值观(DEF,1038)

ut[107]: 
[(u'PostModern_Cooking', (u'DEF', u'1038')),
(u'PostModern_Cooking', (u'DEF', u'415')),
(u'PostModern_Cooking', (u'DEF', u'100')),
(u'PostModern_Cooking', (u'DEF', u'597')),
(u'PostModern_Cooking', (u'DEF', u'786'))]

我正在尝试创建RDD,它像所有的值DEF和数字一样返回

^{pr2}$

channel_views=已连接_数据集.map提取频道视图(U)

当我运行这个程序时,我遇到了错误, 我的问题是如何获取函数中的键值。如果这是输入文件,我正在拆分(“,”)获取key_值[1],key_value[2]是正确的,但是对于连接的数据,如何将每一行分隔成单独的键、值对。谢谢。在


Tags: 数据keymapdefchannel数字views关键
1条回答
网友
1楼 · 发布于 2024-04-23 07:47:41

您应该尝试如下所示的嵌套元组赋值:

key, (val1, val2) = ('testKey', (1, 'testVal'))

您在extract_channel_views函数中接收的值是一个嵌套的元组。在

相关问题 更多 >