如何使用pandas中的另一列更新列

StatusType County 2010 ...2016 OpenYear ClosedYear 1 Closed Alameda 0 0 2005 2015.0 2 Active Alameda 0 0 2006 NaN 3 Closed Alameda 0 0 2008 2015.0 4 Active Alameda 0 0 2011 NaN 5 Active Alameda 0 0 2011 NaN 6 Active Alameda 0 0 2012 NaN 7 Closed Alameda 0 0 1980 1989.0 8 Active Alameda 0 0 1980 NaN 9 Active Alameda 0 0 1980 NaN

2条回答

网友

1楼 · 编辑于 2024-05-23 13:44:13

我觉得应该有一种不使用for loop的方法来实现这一点，但是，我想不出它是atm，所以我的解决方案是：

# Read Example data
from io import StringIO # This only works python 3+
df = pd.read_fwf(StringIO(
"""StatusType  County    OpenYear    ClosedYear
Closed      Alameda   2005        2015.0
Active      Alameda   2006         NaN
Closed      Alameda   2008        2015.0
Active      Alameda   2011         NaN
Active      Alameda   2011         NaN
Active      Alameda   2012         NaN
Closed      Alameda   1980        1989.0
Active      Alameda   1980         NaN
Active      Alameda   1980         NaN"""))

# For each year
for year in range(2010, 2016+1):
    # Create a column of 0s
    df[str(year)] = 0
    # Where the year is between OpenYear and ClosedYear (or closed year is NaN) set it to 1
    df.loc[(df['OpenYear'] <= year) & (pd.isna(df['ClosedYear']) | (df['ClosedYear'] >= year)), str(year)] = int(1)

print(df.to_string)

输出：

^{pr2}$

（注：我不太确定你想用groupby做什么）

网友

2楼 · 编辑于 2024-05-23 13:44:13

除非确实需要创建这些中间列，否则可以直接使用groupby和.size来获得计数，具体取决于是否要包括结束年份，将不等式从<=更改为<。如果你想按县分组，你也可以在同一步骤中这样做。在

这是开始df

  StatusType   County  OpenYear  ClosedYear
1     Closed  Alameda      2005      2015.0
2     Active  Alameda      2006         NaN
3     Closed  Alameda      2008      2015.0
4     Active  Alameda      2011         NaN
5     Active  Alameda      2011         NaN
6     Active  Alameda      2012         NaN
7     Closed  Alameda      1980      1989.0
8     Active  Alameda      1980         NaN
9     Active  Alameda      1980         NaN

import pandas as pd
year_list = [2010, 2011, 2012, 2013, 2014, 2015, 2016]
df_list = []

for year in year_list:
    group = ((df.ClosedYear.isnull()) | (df.ClosedYear >= year)) & (df.OpenYear <= year)
    n_schools = df.groupby([group, df.County]).size()[True]
    df_list.append(pd.DataFrame({'n_schools':n_schools, 'year': year}))

ndf = pd.concat(df_list)
#         n_schools  year
#County                  
#Alameda          5  2010
#Alameda          7  2011
#Alameda          8  2012
#Alameda          8  2013
#Alameda          8  2014
#Alameda          8  2015
#Alameda          6  2016

相关问题更多 >

编程相关推荐

热门问题

热门文章