如何在Pandas数据中建立短语包(和剩余词)

2024-04-20 09:25:19 发布

您现在位置:Python中文网/ 问答频道 /正文

这是我的数据集

I love you baby
I love stackoverflow
I have stackoverflow account

我想要什么

I Love        2
stackoverflow 2
you           1
baby          1
I             1 # the other two already on "I love"
...

我想要的是,如果有任何一个以上的词,来了不止一次在数据帧是在我的短语袋


Tags: the数据youonhaveaccountstackoverflowbaby
1条回答
网友
1楼 · 发布于 2024-04-20 09:25:19

我很肯定熊猫没有一个现成的工具来处理这个案子。你知道吗

您需要执行算法: 在这种情况下,我可以这样想:

  1. 将所有文本拆分为一个数组
  2. 在每行的末尾添加唯一的单词(如:第01行的结尾、第02行的结尾等) 所以在它之后你有这样的数组:

I, love, you, baby, end_of_line_01, I, love, stackoverflow, end_of_line_02, I, have, stackoverflow, account, end_of_line_03

  1. 取前2个单词,如果该单词以相同的顺序存在于数组中的任何其他位置,则在数组中搜索。 a、 如果是,保留多少次的结果。再多说一个字 b、 如果不算第一个字。 在这一步的最后,删除所选单词并将其添加到结果中

  2. 重复步骤3

  3. 从最终结果中删除您添加的所有唯一单词

相关问题 更多 >