如何根据关键词对不同元素进行排序？

Question

我正在尝试根据每个句子中指定单词的词性来对文本文件中的不同句子进行排序。例如：给定 the big [house] 和 the {red} flower，我想创建两个字典，比如 dict1

{house: ["the big house", "substantive"]

和 dict2

{red: "the red flower", "adjective"}

我的想法是稍后将它们合并，得到一个字典，这个字典以句子中的关键词作为主要单词，并包含一个列表，列出我从中获取的句子以及它的词性。

我尝试了多种方法，但结果总是混在一起，几乎没有任何顺序。这是我最后尝试的方式，虽然我知道它的格式可以更好，也不是最干净的解决方案，但这是我目前能让它正常工作的最好方法。

以下是我正在处理的一些句子的示例：

Es (duftete) nach Erde und Pilze
die [Wände] waren mit Moos überzogen.
Ihr zerrissenes [Gewand] war wieder wie neu
Er saß da wie verzaubert und schaute sie an und konnte seine Augen nicht {mehr} von ihr abwenden
Da sie durchscheinend waren, sahen sie aus wie aus rosa [Glas], das von innen erleuchtet ist.

这是我用来排序的代码：

def getWordsSelected (sentence):
    #the parameter sentence gets a list with the previous sentence sample showed
    global WordsDictionary
    WordsDictionary = {}

    verbDict = {}
    subsDict = {}
    adjDict = {}
    
    for wordSentenceToSearch in sentence :
        #SUBSTANTIVE 

        startSubstantive = wordSentenceToSearch.find("[")
        endSubstantive = wordSentenceToSearch.find("]")
        substringSubstantive = wordSentenceToSearch[startSubstantive:endSubstantive]
        wordToSearchSubstantive = substringSubstantive.strip("[]")

        
        subsDict [wordToSearchSubstantive] = [wordSentenceToSearch]
        subsDict.setdefault(wordToSearchSubstantive, []).append("substantive")

    for wordSentenceToSearch in sentence :

        #VERB
        startVerb = wordSentenceToSearch.find("(")
        endVerb = wordSentenceToSearch.find(")")
        substringVerb = wordSentenceToSearch[startVerb:endVerb]
        wordToSearchVerb = substringVerb.strip("()")

       
        verbDict [wordToSearchVerb] = [wordSentenceToSearch]
        verbDict.setdefault(wordToSearchVerb, []).append("Verb")
        
    for wordSentenceToSearch in sentence :

        #ADJ

        startADJ = wordSentenceToSearch.find("{")
        endADJ = wordSentenceToSearch.find("}")
        substringADJ = wordSentenceToSearch[startADJ:endADJ]
        wordToSearchADJ = substringADJ.strip(r"{}")

       
        adjDict [wordToSearchADJ] = [wordSentenceToSearch]
        adjDict.setdefault(wordToSearchADJ, []).append("ADJ")

    print(subsDict)
    print(verbDict)
    print(adjDict)

这几乎可以工作，但这是结果：

{'': ['Er saß da wie verzaubert und schaute sie an und konnte seine Augen nicht {mehr} von ihr abwenden', 'substantive'], 'Wände': ['die [Wände] waren mit Moos überzogen.', 'substantive'], 'Gewand': ['Ihr zerrissenes [Gewand] war wieder wie neu', 'substantive'], 'Glas': ['Da sie durchscheinend waren, sahen sie aus wie aus rosa [Glas], das von innen erleuchtet ist.', 'substantive']}

在上面的字典中，它应该只显示名词，几乎做到了，除了第一个元素；它添加了高亮单词“mehr”的句子，但“mehr”并不是名词（这就是为什么没有添加任何关键词，因为它没有识别出任何符合名词条件的东西，但不知为何，它却把它放进来了）。

{'duftete': ['Es (duftete) nach Erde und Pilze', 'Verb'], '': ['Da sie durchscheinend waren, sahen sie aus wie aus rosa [Glas], das von innen erleuchtet ist.', 'Verb']}

这是动词列表，它正确识别了“duftete”（示例中唯一的动词），但同样又无缘无故地夹杂进了另一个句子。

{'': ['Da sie durchscheinend waren, sahen sie aus wie aus rosa [Glas], das von innen erleuchtet ist.', 'ADJ'], 'mehr': ['Er saß da wie verzaubert und schaute sie an und konnte seine Augen nicht {mehr} von ihr abwenden', 'ADJ']}

最后，形容词和副词类别（它们必须在同一个列表中）也添加了关于 Glas 的句子，而“Glas”是名词，不应该出现在这里，因为它没有（也不应该）识别出任何参数导致这种情况发生。

那么，这里发生了什么？为什么会添加没有任何（明显）逻辑解释的句子？最重要的是，我该怎么做才能正确地对句子进行排序呢？

代码优化数据结构字典合并自然语言处理词性标注文本排序句子处理关键词提取

如何根据关键词对不同元素进行排序？

1 个回答

撰写回答