Python循环遍历pandas Groupby对象

Row 1: { "sessionId" : "454ec8b8-7f00-40b2-901c-724c5d9f5a91", "useCaseId" : "usecaseId1", "timestamp" : "1559403699899", "endFlow" : "false" }, Row 2: { "sessionId" : "454ec8b8-7f00-40b2-901c-724c5d9f5a91", "useCaseId" : "usecaseId1", "timestamp" : "1559403699899", "endFlow" : "false" }, Row 3: { "sessionId" : "454ec8b8-7f00-40b2-901c-724c5d9f5a91", "useCaseId" : "usecaseId2", "timestamp" : "1559403699899", "endFlow" : "true" }, Row 4: { "sessionId" : "454ec8b8-7f00-40b2-901c-724c5d9f5a91", "useCaseId" : "usecaseId1", "timestamp" : "1559403699899", "endFlow" : "false" }, Row 5: { "sessionId" : "454ec8b8-7f00-40b2-901c-724c5d9f5a91", "useCaseId" : "usecaseId1", "timestamp" : "1559403699899", "endFlow" : "true" }

sessionId useCaseId timestamp endFlow 0 sessionId1 useCaseId1 1559403699899 false 1 sessionId1 useCaseId1 1559403699899 false 2 sessionId1 useCaseId2 1559403699899 true 3 sessionId1 useCaseId1 1559403699899 false 4 sessionId1 useCaseId1 1559403699899 true

1条回答

网友
1楼 · 发布于 2024-05-29 03:02:35

您可以这样做：（我假设df.endFlow包含'true'和'false'的字符串。如果它包含布尔值True和False，只需取出replace命令（eem>）
df.endFlow.replace({'true': True, 'false': False}).groupby([df.sessionId, df.useCaseId.ne(df.useCaseId.shift()).cumsum()]).sum().eq(False).sum() Out[1258]: 1
现在，我将您的样本更改为包含两组满足条件的样本，它还报告了正确的计数，如下所示：
df1: sessionId useCaseId timestamp endFlow 0 sessionId1 useCaseId1 1559403699899 false 1 sessionId1 useCaseId1 1559403699899 false 2 sessionId1 useCaseId2 1559403699899 true 3 sessionId1 useCaseId1 1559403699899 false 4 sessionId1 useCaseId1 1559403699899 false df1.endFlow.replace({'true': True, 'false': False}).groupby([df1.sessionId, df1.useCaseId.ne(df1.useCaseId.shift()).cumsum()]).sum().eq(False).sum() Out[1264]: 2
注：我从您的描述中了解到，只有一行的组也被视为连续行组。因此，如果其endFlow是False，则计数将包括它

相关问题更多 >

编程相关推荐

热门问题

热门文章