编写递归函数，根据条件过滤树中每个节点上存储的文档中的单词

B = [['a','b','c','d','m'],['b','d','m','n'],['c','d','e','o'],['c','e','f','n'],['b','c','e','g']] C = [['a','m','n'],['a','m','o'],['b','c','m','n'],['c','n','o'],['b','n','o','g']] # 1. Retrieve the set of all words wordSet = set([word for words in B+C for word in words]) # 2. Compute the occurrences of each word in each node occurB = {word:0 for word in wordSet} occurC = {word:0 for word in wordSet} for word in wordSet: for document in B: if word in document: occurB[word] += 1 for document in C: if word in document: occurC[word] += 1 # 3. Filter the nodes using majority and minority majorityB, minorityB = int(0.6 * len(B)), int(0.4 * len(B)) majorityC, minorityC = int(0.6 * len(C)), int(0.4 * len(C)) newB = [[word for word in document if occurB[word] >= majorityB and occurC[word] <= minorityC] for document in B] newC = [[word for word in document if occurC[word] >= majorityC and occurB[word] <= minorityB] for document in C] print(newB) # [['b', 'c', 'd'], ['b', 'd'], ['c', 'd', 'e'], ['c', 'e'], ['b', 'c', 'e']] print(newC) # [['m', 'n'], ['m', 'o'], ['m', 'n'], ['n', 'o'], ['n', 'o']]

1条回答

网友

1楼 · 发布于 2024-06-01 01:15:36

我假设：

树通过字典类型编码
对于包含文档的节点，每个节点的文档数始终是5个
如果满足所有同级节点的少数标准，则保留一个字

下面是我的代码建议，一点也不优化，但它似乎在我这边起作用：

def RecFilterWords(d):
    for v in d.values():
        if isinstance(v, dict):
            RecFilterWords(v)
        elif isinstance(v, list):
            FilterWords(d)

def FilterWords(d):
    # 1. Retrieve the set of all words
    wordSet = []
    nb = 0
    for v in d.values():
        if isinstance(v, list):
            nb += 1
            wordSet += [word for words in v for word in words]
    if nb == 1:
        return
    wordSet = set(wordSet)

    # 2. Compute the occurrences of each word in each node
    occur = {}
    for k,v in d.items():
        occur[k] = {word:0 for word in wordSet}
        for word in wordSet:
            for document in v:
                if word in document:
                    occur[k][word] += 1

    # 3. Filter the nodes using majority and minority
    newD = d.copy()

    for k,v in d.items():
        if isinstance(v, list):
            newV = v[:]
            for k1,v1 in d.items():
                if isinstance(v1, list):
                    majority = 3
                    minority = 2
                    if k == k1:
                        newV = [[word for word in document if occur[k1][word] >= majority] for document in newV]
                    else:
                        newV = [[word for word in document if occur[k1][word] <= minority] for document in newV]
            newD[k] = newV     
    d.clear()
    d.update(newD)


# Example with B, C, D as child nodes
B = [['a','b','c','d','m'],['b','d','m','n'],['c','d','e','o'],['c','e','f','n'],['b','c','e','g']]
C = [['a','m','n'],['a','m','o'],['b','c','m','n'],['c','n','o'],['b','n','o','g']]
D = [['b','m','n'],['b'],['g'],['o','b','g'],['b','g']]

# The tree is coded through a dictionary type
d = {"A1": {"B": {"B": B,
                  "C": C,
                  "D": D},
            "C":C
           },
     "A2": {"B":B,
            "C":C}
    }

RecFilterWords(d)
print(d)
# It prints:
# {'A1': {'B': {'B': [['c', 'd'], ['d'], ['c', 'd', 'e'], ['c', 'e'], ['c', 'e']],
#               'C': [['m', 'n'], ['m', 'o'], ['m', 'n'], ['n', 'o'], ['n', 'o']],
#               'D': [[], [], ['g'], ['g'], ['g']]},
#         'C': [['a', 'm', 'n'], ['a', 'm', 'o'], ['b', 'c', 'm', 'n'], ['c', 'n', 'o'], ['b', 'n', 'o', 'g']]},
#  'A2': {'B': [['b', 'c', 'd'], ['b', 'd'], ['c', 'd', 'e'], ['c', 'e'], ['b', 'c', 'e']],
#         'C': [['m', 'n'], ['m', 'o'], ['m', 'n'], ['n', 'o'], ['n', 'o']]}
#  }

相关问题更多 >

编程相关推荐

热门问题

热门文章