如何在Pandas数据中建立短语包（和剩余词） - 问答 - Python中文网

如何在Pandas数据中建立短语包（和剩余词）

2024-04-20 09:25:19 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

这是我的数据集

I love you baby
I love stackoverflow
I have stackoverflow account

我想要什么

I Love        2
stackoverflow 2
you           1
baby          1
I             1 # the other two already on "I love"
...

我想要的是，如果有任何一个以上的词，来了不止一次在数据帧是在我的短语袋

Tags： the 数据 you on have account stackoverflow baby

1条回答

网友

1楼 · 发布于 2024-04-20 09:25:19

我很肯定熊猫没有一个现成的工具来处理这个案子。你知道吗

您需要执行算法：在这种情况下，我可以这样想：

将所有文本拆分为一个数组
在每行的末尾添加唯一的单词（如：第01行的结尾、第02行的结尾等）所以在它之后你有这样的数组：

I, love, you, baby, end_of_line_01, I, love, stackoverflow, end_of_line_02, I, have, stackoverflow, account, end_of_line_03

取前2个单词，如果该单词以相同的顺序存在于数组中的任何其他位置，则在数组中搜索。 a、如果是，保留多少次的结果。再多说一个字 b、如果不算第一个字。在这一步的最后，删除所选单词并将其添加到结果中
重复步骤3
从最终结果中删除您添加的所有唯一单词

相关问题更多 >

编程相关推荐

热门问题

热门文章