我正在研究“Python For Data Analysis”,我不了解特定的功能。添加两个pandas系列对象将自动对齐索引数据,但如果一个对象不包含该索引,则将其返回为NaN。例如,来自book:
a = Series([35000,71000,16000,5000],index=['Ohio','Texas','Oregon','Utah'])
b = Series([NaN,71000,16000,35000],index=['California', 'Texas', 'Oregon', 'Ohio'])
结果:
In [63]: a
Out[63]: Ohio 35000
Texas 71000
Oregon 16000
Utah 5000
In [64]: b
Out[64]: California NaN
Texas 71000
Oregon 16000
Ohio 35000
当我把它们加在一起时,我得到了这个。。。
In [65]: a+b
Out[65]: California NaN
Ohio 70000
Oregon 32000
Texas 142000
Utah NaN
为什么犹他州的价值是NaN而不是500?似乎500+NaN=500。给什么?我有遗漏,请解释。
更新:
In [92]: # fill NaN with zero
b = b.fillna(0)
b
Out[92]: California 0
Texas 71000
Oregon 16000
Ohio 35000
In [93]: a
Out[93]: Ohio 35000
Texas 71000
Oregon 16000
Utah 5000
In [94]: # a is still good
a+b
Out[94]: California NaN
Ohio 70000
Oregon 32000
Texas 142000
Utah NaN
熊猫并不认为500+NaN=500,但很容易要求它这样做:
a.add(b, fill_value=0)
使用
pd.concat()
更有意义,因为它可以接受更多的列。输出:
或3系列:
默认的方法是假设任何涉及NaN的计算都会得到NaN作为结果。任何加NaN的东西都是NaN,任何除以NaN的东西都是NaN,等等。如果你想用一些值填充NaN,你必须显式地这样做(正如Dan Allan在他的回答中所示)。
相关问题 更多 >
编程相关推荐