在一个文件文本中查找同一行中项目的组合及其频率

freq = 0 result = [] for line in file.splitlines(): for i in list1: for x in list2: if i in line and x in line: freq +=1 result.append((i,x, freq))

1条回答

网友

1楼 · 发布于 2024-04-25 03:52:30

请执行以下操作：

import itertools

frequencies = {}
for line in open_file: # You don't need .splitlines() to iterate, and you shouldn't use file as a name
    line = line.strip().split()
    list1_used = (x for x in list1 if x in line)
    list2_used = (x for x in list2 if x in line)
    for combination in itertools.product(list1_used, list2_used):
        frequencies[combination] = frequencies.get(combination, 0) + 1

这将为每一对创建一个频率字典。例如，如果您给出的行是file对象中唯一的一行，那么您可能会得到类似{('rights', 'have'): 1, ('workers', 'have'): 1, ('rights', 'the'): 1, ('workers', 'the'): 1}的结果。如果要考虑给定单词出现的次数，则list1_used和list2_used要复杂一些：

list1_used = sum((((x,) * line.count(x)) for x in list1), ())
list2_used = sum((((y,) * line.count(y)) for y in list2), ())

在这里使用defaultdict可能更容易：

from collections import defaultdict
import itertools

frequencies = defaultdict(int)
for line in open_file:
    line = line.strip().split()
    list1_used = ...
    list2_used = ...
    for combination in itertools.product(list1_used, list2_used):
        frequencies[combination] += 1

相关问题更多 >

编程相关推荐

热门问题

热门文章

在一个文件文本中查找同一行中项目的组合及其频率

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >