确保对象列表只包含唯一项的最python方法

3条回答

网友

1楼 · 编辑于 2024-06-16 12:09:44

根据the documentation，您需要定义__hash__()和{}，以便自定义类正确使用set或{}，因为这两个都是使用CPython中的哈希表实现的。在

如果实现__hash__，请记住如果a == b，那么{}必须等于hash(b)。我建议为您的简单类提供以下更直接的实现，而不是比较整个__dict__s：

class Foo(object):
    def __init__(self, myid):
        self.myid = myid

    def __eq__(self, other):
        return isinstance(other, self.__class__) and other.myid == self.myid

    def __hash__(self):
        return hash(self.myid)

如果对象包含可变属性，则不应将其放在集合中或将其用作字典键。在

网友

2楼 · 编辑于 2024-06-16 12:09:44

您是否尝试过使用set（或frozenset）？它明确地用于保存一组唯一的项。在

不过，您需要创建一个适当的__hash__方法。set（和frozenset）使用__hash__方法散列对象；__eq__只用于碰撞，AFAIK。相应地，您将希望使用类似hash(frozenset(self.__dict__.items()))的散列。在

网友

3楼 · 编辑于 2024-06-16 12:09:44

首先，我想强调使用set当然不是反模式。sets在O（n）时间内消除重复，这是您所能做的最好的方法，而且比将每个项目与其他项目进行比较的朴素的O（n^2）解决方案要好得多。它甚至比排序更好——事实上，似乎您的数据结构甚至可能没有一个自然的顺序，在这种情况下，排序没有多大意义。在

在这种情况下使用集合的问题是必须定义一个自定义的__hash__方法。也有人这么说。但是你是否能轻松做到这一点是一个开放的问题——这取决于你的实际类的细节，你还没有告诉我们。例如，如果上面的Foo对象的任何属性都是不可哈希的，那么创建一个自定义哈希函数将非常困难，因为您不仅要为Foo对象编写自定义哈希，还必须为其他每种类型的对象编写自定义哈希！在

所以如果你想要一个结论性的答案，你需要告诉我们更多关于你的类有什么样的属性。但我可以提供一些推测。在

假设可以为Foo对象编写散列函数，但也假设Foo对象是可变的，因此，正如Niklas B.所指出的，这是一种可行的方法。创建一个函数freeze，给定Foo的可变实例，该函数返回Foo中不可变的数据集合。例如，假设Foo中有一个dict和一个list；freeze返回一个tuple的tuple（表示dict）和另一个tuple（表示dict）和另一个{}（表示list）。函数freeze应具有以下属性：

freeze(a) == freeze(b)

当且仅当

^{pr2}$
现在通过以下代码传递您的列表：
dupe_free = dict((freeze(x), x) for x in dupe_list).values()
现在你有了一个无重复的列表。（实际上，在添加了这个建议之后，我看到fraxel也提出了类似的建议；但是我认为使用自定义函数甚至是方法(x.freeze(), x)是更好的方法，而不是像他那样依赖__dict__，这可能不可靠。您的自定义__eq__方法也是如此，IMO--__dict__并不总是一个安全的快捷方式，因为各种原因我无法进入这里。）
另一种方法是首先只使用不可变的对象！例如，可以使用^{}s。下面是从python文档中窃取的一个示例：
>>> Point = namedtuple('Point', ['x', 'y']) >>> p = Point(11, y=22) # instantiate with positional or keyword arguments >>> p[0] + p[1] # indexable like the plain tuple (11, 22) 33 >>> x, y = p # unpack like a regular tuple >>> x, y (11, 22) >>> p.x + p.y # fields also accessible by name 33 >>> p # readable __repr__ with a name=value style Point(x=11, y=22)

相关问题更多 >

编程相关推荐

热门问题

热门文章