从dataframe列中删除无意义的单词

2024-04-16 13:28:38 发布

您现在位置:Python中文网/ 问答频道 /正文

dataframe列包含一些没有意义的三个和两个字母的单词的句子。我想在dataframe列中找到所有这样的单词,然后从dataframe列中删除它们。 测向-

id      text
1       happy birthday syz
2       vz
3       have a good bne weekend 

我想1)找出所有长度小于3的单词。(这将返回syz、vz、bne) 2) 删除这些单词 (注意,stopword已经被删除,所以像“a”、“the”这样的单词现在不在dataframe列中,上面的dataframe只是一个例子)

我尝试了下面的代码,但它不起作用

^{pr2}$

输出应为-

id      text
1       happy birthday 
2       
3       have good weekend 

Tags: textiddataframehave字母单词句子意义
1条回答
网友
1楼 · 发布于 2024-04-16 13:28:38

当实际数据是字符串列(符号的顺序)时,可以将函数应用于一列单词的顺序 您还应该删除.sum(),因为它是完全冗余的。在

重写您在表单中应用的函数:

 def filter_short_words(text):
    return "".join([for w in text.split() if len(w) > 3])

这很管用。在

相关问题 更多 >