2024-04-20 09:25:19 发布
网友
这是我的数据集
I love you baby I love stackoverflow I have stackoverflow account
我想要什么
I Love 2 stackoverflow 2 you 1 baby 1 I 1 # the other two already on "I love" ...
我想要的是,如果有任何一个以上的词,来了不止一次在数据帧是在我的短语袋
我很肯定熊猫没有一个现成的工具来处理这个案子。你知道吗
您需要执行算法: 在这种情况下,我可以这样想:
I, love, you, baby, end_of_line_01, I, love, stackoverflow, end_of_line_02, I, have, stackoverflow, account, end_of_line_03
取前2个单词,如果该单词以相同的顺序存在于数组中的任何其他位置,则在数组中搜索。 a、 如果是,保留多少次的结果。再多说一个字 b、 如果不算第一个字。 在这一步的最后,删除所选单词并将其添加到结果中
重复步骤3
从最终结果中删除您添加的所有唯一单词
我很肯定熊猫没有一个现成的工具来处理这个案子。你知道吗
您需要执行算法: 在这种情况下,我可以这样想:
取前2个单词,如果该单词以相同的顺序存在于数组中的任何其他位置,则在数组中搜索。 a、 如果是,保留多少次的结果。再多说一个字 b、 如果不算第一个字。 在这一步的最后,删除所选单词并将其添加到结果中
重复步骤3
从最终结果中删除您添加的所有唯一单词
相关问题 更多 >
编程相关推荐