有没有一种方法可以按给定数据集中某个值的百分比窗口对数据行进行分组，然后遍历数据集？

1条回答

网友

1楼 · 发布于 2024-05-14 20:50:24

您可以根据置信值和规则长度对两列中的成对值进行排序。然后我们将首先得到最低的conf分数，在具有相同conf分数的规则中，最短的列表将首先出现。我们使用“两个手指”的方法遍历这个排序规则/conf对。第一个指针是当前的rule/conf对。第二个手指移动，直到我们找到第一个规则，它要么是不相等的conf分数（例如，如果我们的第一个手指在0.1上，则为0.5），要么是规则不是子集（例如，如果我们的第一个手指在['Dog']上，则为['仓鼠']）。当我们找到这样的rule/conf对时，我们附加第一个手指的rule/conf对，并将第一个手指前进到我们刚刚处理的那一对。我们继续迭代，跳过属于我们要删除的条件的对，当我们发现不符合“删除”条件的对时，追加并前进。希望这有意义

rules = [['Dog'],['Dog','Cat'],['Dog','Cat','Hamster','Goldfish'], ['Dog','Cat','Hamster']]
confs = [0.1, 0.5, 0.1, 0.5]

# sort by conf values and size of rules to put the shortest sub-rule in the front
ruleConfPairs = sorted(zip(rules, confs), key=lambda x: (x[1], len(x[0])))

# initialize iteration
new_rules = []
new_confs = []
current_rule = ruleConfPairs[0][0]
current_conf = ruleConfPairs[0][1]

for rule, conf in ruleConfPairs[1:]:
    if current_conf == conf and set(current_rule).issubset(rule):
        # skip (i.e. remove) pair if it has the same confidence value AND rule is a subset
        continue
    # append current rule/conf pair if either confidence score is not equal OR rule is not a subset
    new_rules.append(current_rule)
    new_confs.append(current_conf)
    # advance our pair
    current_rule = rule
    current_conf = conf

# make sure to append the last pair
new_rules.append(current_rule)
new_confs.append(current_conf)

print(new_rules)
print(new_confs)

输出：

[['Dog'], ['Dog', 'Cat']]
[0.1, 0.5]

相关问题更多 >

编程相关推荐

热门问题

热门文章

有没有一种方法可以按给定数据集中某个值的百分比窗口对数据行进行分组，然后遍历数据集？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >