sorted([2, float('nan'), 1])
返回[2, nan, 1]
(至少在Activestate Python 3.1实现上。)
我知道nan
是一个奇怪的对象,所以如果它出现在排序结果中的随机位置,我不会感到惊讶。但这也扰乱了容器中非nan数字的排序,这真是出乎意料。
我问了一个related question关于max
的问题,基于此,我理解了sort
为什么这样工作。但这应该被认为是个错误吗?
文档只是说“返回一个新的排序列表[…”,而没有指定任何细节。
编辑: 我现在同意这并没有违反IEEE标准。不过,我认为,从任何常识的角度来看,这都是一个缺陷。即使是不常承认错误的微软,也已经认识到这是一个bug,并在最新版本中修复了它:http://connect.microsoft.com/VisualStudio/feedback/details/363379/bug-in-list-double-sort-in-list-which-contains-double-nan。
不管怎样,我最终还是听从了“卡奇克”的回答:
sorted(list_, key = lambda x : float('-inf') if math.isnan(x) else x)
与默认的语言相比,我怀疑它会导致性能下降,但至少它能工作(排除我引入的任何错误)。
我不确定这个bug,但解决方法可能是:
结果是:
或者在排序或其他操作之前删除
nan
s。问题是,如果列表包含NAN,则没有正确的顺序,因为序列a1、a2、a3,…,如果a1<;=a2<;=a3<;=。。。<;=安。如果这些a值中的任何一个是NAN,则排序属性将中断,因为对于所有a,a<;=NAN和NAN<;=a都是false。
前面的答案是有用的,但可能不清楚问题的根源。
在任何语言中,sort在输入值的域上应用由比较函数或以某种其他方式定义的给定顺序。例如,less than,a.k.a.
operator <,
可以在整个if和only中使用,前提是less than定义了输入值的适当顺序。但对于浮点值和小于以下值的值,这尤其不正确: “NaN是无序的:它不等于、大于或小于任何东西,包括它本身。”(GNU C手册中的明文,但适用于所有基于现代
IEEE754
的浮点)所以可能的解决方案是:
任何语言都可以使用这两种方法。
实际上,考虑到python,如果您不太关心最快的性能,或者移除nan是上下文中所需的行为,我宁愿移除nan。
否则,您可以通过旧python版本中的“cmp”或通过this和
functools.cmp_to_key()
使用合适的谓词函数。自然,后者比先移除NaNs要尴尬得多。在定义这个谓词函数时,需要注意避免更差的性能。相关问题 更多 >
编程相关推荐