移动桶和出生/死亡委员会

date nVisits user 5/25/2017 10 A 5/25/2017 2 B 5/25/2017 3 C 5/25/2017 0 D 5/25/2017 0 E 5/26/2017 6 A 5/26/2017 0 B 5/26/2017 4 C 5/26/2017 8 D 5/26/2017 1 E

date group nVisits nObs 5/25/2017 zero 0 2 5/25/2017 one 0 0 5/25/2017 twoToFour 2 2 5/25/2017 fivePlus 10 1 5/26/2017 zero 0 1 5/26/2017 one 1 1 5/26/2017 twoToFour 4 1 5/26/2017 fivePlus 16 2

3条回答

网友

1楼 · 编辑于 2024-06-07 01:45:42

我会使用pd.cut()方法：

In [29]: df['group'] = pd.cut(df.nVisits,
                              [-1, 0, 1, 4, np.inf], 
                              labels=['zero','one','twoToFour','fivePlus'])

In [30]: df
Out[30]:
         date  nVisits user      group
0  2017-05-25       10    A   fivePlus
1  2017-05-25        2    B  twoToFour
2  2017-05-25        3    C  twoToFour
3  2017-05-25        0    D       zero
4  2017-05-25        0    E       zero
5  2017-05-26        6    A   fivePlus
6  2017-05-26        0    B       zero
7  2017-05-26        4    C  twoToFour
8  2017-05-26        8    D   fivePlus
9  2017-05-26        1    E        one

网友

2楼 · 编辑于 2024-06-07 01:45:42

一种方法是使用np.哪里（）

myDf[“组”]=np.哪里(myDf.nVisits公司>；5，'五加'，np.哪里(myDf.nVisits公司==0，'零'， np.哪里(myDf.nVisits公司==1，'一'，'四分之二'））

    date        nVisits user    group
0   2017-05-25  10      A       fiveplus
1   2017-05-25  2       B       twotofour
2   2017-05-25  3       C       twotofour
3   2017-05-25  0       D       zero
4   2017-05-25  0       E       zero
5   2017-05-26  6       A       fiveplus
6   2017-05-26  0       B       zero
7   2017-05-26  4       C       twotofour
8   2017-05-26  8       D       fiveplus
9   2017-05-26  1       E       one

网友

3楼 · 编辑于 2024-06-07 01:45:42

解决方案1：

df1 = myDf.assign(group=pd.cut(myDf.nVisits,[0,1,2,5,np.inf],right=False,labels=['zero','one','twotoFour','fivePlus']))

输出：

         date  nVisits user      group
0  2017-05-25       10    A   fivePlus
1  2017-05-25        2    B  twotoFour
2  2017-05-25        3    C  twotoFour
3  2017-05-25        0    D       zero
4  2017-05-25        0    E       zero
5  2017-05-26        6    A   fivePlus
6  2017-05-26        0    B       zero
7  2017-05-26        4    C  twotoFour
8  2017-05-26        8    D   fivePlus
9  2017-05-26        1    E        one

df2 = df1.groupby(['date','group']).agg({'nVisits':'sum','user':'count'}).reset_index()

print(df2)

         date      group  user  nVisits
0  2017-05-25   fivePlus     1       10
1  2017-05-25  twotoFour     2        5
2  2017-05-25       zero     2        0
3  2017-05-26   fivePlus     2       14
4  2017-05-26        one     1        1
5  2017-05-26  twotoFour     1        4
6  2017-05-26       zero     1        0

解决方案2：

df2 = df1.assign(nVisitsAtBirthDeath=df1.groupby('user').filter(lambda x: x.nVisits.eq(0).any()).groupby('user')['nVisits'].apply(lambda x: x - x.shift())).dropna()

df3 = df2.assign(event=np.where(df2.nVisitsAtBirthDeath<0,'Death','Birth'))

print(df3)

输出：

         date  nVisits user     group  nVisitsAtBirthDeath  event
6  2017-05-26        0    B      zero                 -2.0  Death
8  2017-05-26        8    D  fivePlus                  8.0  Birth
9  2017-05-26        1    E       one                  1.0  Birth

解决方案1：

解决方案2：

相关问题更多 >

编程相关推荐

热门问题

热门文章