Pandas DataFrame：每个数据帧的不同列中按顺序的相同值的数量

Leader_Jan Leader_Feb Leader_Mar Leader_Apr Unit1 Nina Nina Nina Nina Unit2 Lena Lena NaN Lena Unit3 Alex Maria Alex Alex Unit4 Emilia NaN NaN NaN Unit5 NaN Corinna Petra NaN

import pandas as pd import numpy as np a = ['Nina','Nina','Nina','Nina'] b = ['Lena','Lena',np.NaN,'Lena'] c = ['Alex','Maria','Alex','Alex'] d = ['Emilia',np.NaN,np.NaN,np.NaN] e = [np.NaN,'Corinna','Petra',np.NaN] data = pd.DataFrame(data=[a,b,c,d,e], columns =['Leader_Jan','Leader_Feb','Leader_Mar','Leader_Apr'], index=['Unit1','Unit2','Unit3','Unit4','Unit5'])

Leader_Jan Leader_Feb Leader_Mar Leader_Apr Min_length_of_stay_leaders \ Unit1 Nina Nina Nina Nina 4 Unit2 Lena Lena NaN Lena 1 Unit3 Alex Maria Alex Alex 1 Unit4 Emilia NaN NaN NaN 1 Unit5 NaN Corinna Petra NaN 1 Max_length_of_stay_leaders Unit1 4 Unit2 2 Unit3 2 Unit4 1 Unit5 1

2条回答

网友

1楼 · 编辑于 2024-06-16 13:37:11

实际上，使用itertools.groupby非常容易：

from itertools import groupby

def min_max_durations(row):
    # the group object consumes the iterator, but we don't care about the values 
    # so we just sum "1" to get the length.
    # Taken from https://stackoverflow.com/questions/44490079/how-to-turn-an-itertools-grouper-object-into-a-list
    durations = [sum(1 for _ in group) for key, group in groupby(row) if not isinstance(key, float)]
    return min(durations), max(durations)

data["min_lengths_of_stay"], data["max_lengths_of_stay"] = zip(*data.apply(min_max_durations, axis=1))

对float的实例检查只是从计数中移除NaN值的一种快速方法，您可以将其任意复杂化。你知道吗

这将输出正确的结果（请注意，复制粘贴复制代码在Unit3中有3个“Alex”条目，与您的示例不同）

      Leader_Jan Leader_Feb Leader_Mar Leader_Apr  min_lengths_of_stay  \
Unit1       Nina       Nina       Nina       Nina                    4   
Unit2       Lena       Lena        NaN       Lena                    1   
Unit3      Maria       Alex       Alex       Alex                    1   
Unit4     Emilia        NaN        NaN        NaN                    1   
Unit5        NaN    Corinna      Petra        NaN                    1   
       max_lengths_of_stay  
Unit1                    4  
Unit2                    2  
Unit3                    3  
Unit4                    1  
Unit5                    1

网友

2楼 · 编辑于 2024-06-16 13:37:11

这会让你开始-

temp = df.apply(lambda x: x.groupby((x != x.shift()).cumsum()).cumcount()+1, axis=1)

mins = temp.min(1)
maxs = temp.max(1)
mask = temp.apply(lambda x: x.is_monotonic_increasing and x.is_unique, axis=1)
mins.loc[mask] = maxs.loc[mask]
mins.name='Min_length_of_stay_leaders'
maxs.name='Max_length_of_stay_leaders'

df.join(mins).join(maxs)

输出

      Leader_Jan Leader_Feb Leader_Mar Leader_Apr  Min_length_of_stay_leaders  \
Unit1       Nina       Nina       Nina       Nina                           4   
Unit2       Lena       Lena        NaN       Lena                           1   
Unit3       Alex      Maria       Alex       Alex                           1   
Unit4     Emilia        NaN        NaN        NaN                           1   
Unit5        NaN    Corinna      Petra        NaN                           1   

       Max_length_of_stay_leaders  
Unit1                           4  
Unit2                           2  
Unit3                           2  
Unit4                           1  
Unit5                           1

解释

temp = df.apply(lambda x: x.groupby((x != x.shift()).cumsum()).cumcount()+1, axis=1)

这将为您提供按名称分组的连续领导者计数-

    Leader_Jan  Leader_Feb  Leader_Mar  Leader_Apr
Unit1   1   2   3   4
Unit2   1   2   1   1
Unit3   1   1   1   2
Unit4   1   1   1   1
Unit5   1   1   1   1

只需提取max和min-

mins = temp.min(1)
maxs = temp.max(1)

问题就出现在Nina身上——她一直在工作，所以在这种情况下min也需要是4。你知道吗

因此，对于边的情况，mask对象检测严格单调递增的序列，如果是这样的话，则替换为max。你知道吗

我仍然不确定它是否适用于所有情况，所以请检查

相关问题更多 >

编程相关推荐

热门问题

热门文章