我有一个rdd对象(从一个文本文件创建),我正在创建另一个rdd对象,通过使用完全匹配的词进行过滤。你知道吗
rdd2 = rdd1.filter(lambda x: word in x)
word
是在for循环中生成的字符串。所以我将在循环中的rdd1
中搜索一些单词。例如,如果我的单词值是“ebook”。所以,当我搜索rdd1时,我得到了所有与电子书匹配的行。但是,我也得到与价值'电子书'行。你知道吗
如何过滤具有精确单词匹配的rdd?rdd2
应该只包含精确匹配单词的行,即ebook
而不是ebooks
。你知道吗
我需要创建一个中间rdd来进一步处理。请帮忙。你知道吗
x.split()
用于精确的单词匹配。你知道吗相关问题 更多 >
编程相关推荐