Python中的高效列表映射

4 投票

4 回答

1918 浏览

提问于 2025-04-15 22:07

我有以下的输入：

input = [(dog, dog, cat, mouse), (cat, ruby, python, mouse)]

我想得到以下的输出：

outputlist = [[0, 0, 1, 2], [1, 3, 4, 2]]

outputmapping = {0:dog, 1:cat, 2:mouse, 3:ruby, 4:python, 5:mouse}

有没有什么建议可以帮助我处理这个问题，同时考虑到可扩展性（因为输入的内容可能会非常大）。

性能优化数据处理列表映射可扩展性

4 个回答

这里有一个可能的解决方案，虽然它不是最好的。如果你事先知道列表中每个条目会有多少个元素，可以通过提前分配这些元素来让它稍微更高效一些。

labels=[];
label2index={};
outputlist=[];
for group in input:
    current=[];
    for label in group:
       if label not in label2index:
           label2index[label]=len(labels);
           labels.append(label);
       current.append(label2index[label]);
    outputlist.append(current);

outputmapping={};
for idx, val in enumerate(labels):
    outputmapping[idx]=val;

回答于 2025-04-15 由 Python大师

分享举报

这个类会自动把对象映射到逐渐增加的整数值上：

class AutoMapping(object):
    def __init__(self):
        self.map = {}
        self.objects = []

    def __getitem__(self, val):
        if val not in self.map:
            self.map[val] = len(self.objects)
            self.objects.append(val)
        return self.map[val]

下面是一个使用示例，针对你的输入：

>>> input = [('dog', 'dog', 'cat', 'mouse'), ('cat', 'ruby', 'python', 'mouse')]
>>> map = AutoMapping()
>>> [[map[x] for x in y] for y in input]
[[0, 0, 1, 2], [1, 3, 4, 2]]
>>> map.objects
['dog', 'cat', 'mouse', 'ruby', 'python']
>>> dict(enumerate(map.objects))
{0: 'dog', 1: 'cat', 2: 'mouse', 3: 'ruby', 4: 'python'}

回答于 2025-04-15 由 Python大师

分享举报

你可能想要的是这样的：

import collections
import itertools

def build_catalog(L):
    counter = itertools.count().next
    names = collections.defaultdict(counter)
    result = []
    for t in L:
        new_t = [ names[item] for item in t ]
        result.append(new_t)
    catalog = dict((name, idx) for idx, name in names.iteritems())
    return result, catalog

使用方法：

>>> input = [('dog', 'dog', 'cat', 'mouse'), ('cat', 'ruby', 'python', 'mouse')]
>>> outputlist, outputmapping = build_catalog(input)
>>> outputlist
[[0, 0, 1, 2], [1, 3, 4, 2]]
>>> outputmapping
{0: 'dog', 1: 'cat', 2: 'mouse', 3: 'ruby', 4: 'python'}

回答于 2025-04-15 由 Python大师

分享举报

Python中的高效列表映射

4 个回答

撰写回答