具有精确词匹配搜索的RDD过滤器

2024-04-19 14:36:47 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个rdd对象(从一个文本文件创建),我正在创建另一个rdd对象,通过使用完全匹配的词进行过滤。你知道吗

rdd2 = rdd1.filter(lambda x: word in x)

word是在for循环中生成的字符串。所以我将在循环中的rdd1中搜索一些单词。例如,如果我的单词值是“ebook”。所以,当我搜索rdd1时,我得到了所有与电子书匹配的行。但是,我也得到与价值'电子书'行。你知道吗

如何过滤具有精确单词匹配的rdd?rdd2应该只包含精确匹配单词的行,即ebook而不是ebooks。你知道吗

我需要创建一个中间rdd来进一步处理。请帮忙。你知道吗


Tags: 对象lambda字符串infor电子书filter单词
1条回答
网友
1楼 · 发布于 2024-04-19 14:36:47
rdd2 = rdd1.filter(lambda x: word in x.split())

x.split()用于精确的单词匹配。你知道吗

相关问题 更多 >