我有一个包含如下行的rdd
[(0, (['componenţa', 'parlamentului:', 'a', 'se', 'vedea', 'procesul-verbal'], ['membership', 'of', 'parliament:', 'see', 'minutes']))]
我尝试使用以下方法过滤掉包含单词“vedea”的数据对象:
Index_Comb=Index_Ro.join(Index_En).reduceByKey(lambda x,y:x+y)\ # Joining two RDDs into one
.filter(lambda x : "vedea" not in x[1])
然而,结果RDD是空的,我不知道为什么,在我所做的条件中是否有我缺少的东西
对于
spark2.4
,使用Dataframes
,可以使用高阶函数transform and filter
对数组或其他嵌套数据结构进行过滤在这种情况下,如果您想要} {} 包含单词}
remove
{'vedea'
,您可以使用filter
和{相关问题 更多 >
编程相关推荐