在一组句子中找出出现在一起(不一定紧挨着)的单词。这些词是词典| Python的关键词

2024-06-16 10:23:29 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一本字典,里面的关键词可以是任意数量的单词,我试图看看我是否能在文本块中找到这些单词。我已经用n-grams完成了NLP处理。例如,我试图看看字典关键字中的大部分或所有单词是否在彼此相邻的文本块中

例如

dictionary = {'countertop handle piece' : 'ID1234, 'fridge door button' : 'ID1235}

text = "the situation in the kitchen where the handle of the countertop piece is broken in not looking very good. Blah blah blah blah. Moreover, we wanted to repair the button which is found on the yellow door of the refrigerator."

因此,我希望能够识别句子,或者可能是包含字典关键词中大部分或所有单个单词的文本块。这是因为与上面的例子一样,有人可能不会称冰箱为冰箱,也可能不会使用彼此相邻的“冰箱门按钮”的所有三个世界

我知道词干和标记化,以及删除停止词,然后应用n-gram匹配,都会有所帮助。然而,我认为这种方法需要更加复杂

有人告诉我,共现矩阵会有所帮助,因为它会找到文本块的上下文,并评估文本块是否在描述某件事。使用这种方法,我将能够找到字典关键字中所有或大部分单词都出现在给定句子中的句子

如果共同发生或类似的事情是解决方法,那么我该如何着手解决它呢?因为我试着去研究它,但我看不出它对我有什么帮助,最重要的是如何实现它并真正解决问题

如果您的答案中有任何示例代码/示例,我将不胜感激,因为我在Python方面不是很高级


Tags: the方法in文本piece字典button关键字