Python:sort函数在nan出现时中断

2024-04-26 21:56:15 发布

您现在位置:Python中文网/ 问答频道 /正文

sorted([2, float('nan'), 1])返回[2, nan, 1]

(至少在Activestate Python 3.1实现上。)

我知道nan是一个奇怪的对象,所以如果它出现在排序结果中的随机位置,我不会感到惊讶。但这也扰乱了容器中非nan数字的排序,这真是出乎意料。

我问了一个related question关于max的问题,基于此,我理解了sort为什么这样工作。但这应该被认为是个错误吗?

文档只是说“返回一个新的排序列表[…”,而没有指定任何细节。

编辑: 我现在同意这并没有违反IEEE标准。不过,我认为,从任何常识的角度来看,这都是一个缺陷。即使是不常承认错误的微软,也已经认识到这是一个bug,并在最新版本中修复了它:http://connect.microsoft.com/VisualStudio/feedback/details/363379/bug-in-list-double-sort-in-list-which-contains-double-nan

不管怎样,我最终还是听从了“卡奇克”的回答:

sorted(list_, key = lambda x : float('-inf') if math.isnan(x) else x)

与默认的语言相比,我怀疑它会导致性能下降,但至少它能工作(排除我引入的任何错误)。


Tags: 对象in排序错误数字nanfloatsort
3条回答

我不确定这个bug,但解决方法可能是:

sorted(
    (2, 1, float('nan')),
    lambda x,y: x is float('nan') and -1 
                or (y is float('nan') and 1
                or cmp(x,y)))

结果是:

('nan', 1, 2)

或者在排序或其他操作之前删除nans。

问题是,如果列表包含NAN,则没有正确的顺序,因为序列a1、a2、a3,…,如果a1<;=a2<;=a3<;=。。。<;=安。如果这些a值中的任何一个是NAN,则排序属性将中断,因为对于所有a,a<;=NAN和NAN<;=a都是false。

前面的答案是有用的,但可能不清楚问题的根源。

在任何语言中,sort在输入值的域上应用由比较函数或以某种其他方式定义的给定顺序。例如,less than,a.k.a.operator <,可以在整个if和only中使用,前提是less than定义了输入值的适当顺序。

但对于浮点值和小于以下值的值,这尤其不正确: “NaN是无序的:它不等于、大于或小于任何东西,包括它本身。”(GNU C手册中的明文,但适用于所有基于现代IEEE754的浮点)

所以可能的解决方案是:

  1. remove the NaNs first, making the input domain well defined via < (or the other sorting function being used)
  2. define a custom comparison function (a.k.a. predicate) that does define an ordering for NaN, such as less than any number, or greater than any number.

任何语言都可以使用这两种方法。

实际上,考虑到python,如果您不太关心最快的性能,或者移除nan是上下文中所需的行为,我宁愿移除nan。

否则,您可以通过旧python版本中的“cmp”或通过this和functools.cmp_to_key()使用合适的谓词函数。自然,后者比先移除NaNs要尴尬得多。在定义这个谓词函数时,需要注意避免更差的性能。

相关问题 更多 >