使用python或R，组织日历d

ID Sunday Monday Tuesday Wednesday Thursday Friday Saturday 1585 NA NA NA NA NA NA NA 1585 NA S S S S H NA 1585 NA H S S NA NA NA 1585 NA S S S NA NA NA 1597 NA S S NA S NA NA 1597 NA NA NA NA NA H NA 1597 NA H S S NA NA NA 1597 NA NA NA NA NA NA NA

ID Begin_date End_date Duration 1585 2017-04-10 2017-04-19 10 1585 2017-04-24 2017-04-26 3 1597 2017-04-03 2017-04-04 2 1597 2017-04-06 2017-04-06 1 1597 2017-04-18 2017-04-19 2

1条回答

网友

1楼 · 发布于 2024-05-14 17:41:20

你提到你最大的问题之一是认识病假，因为他们可能包括假期和周末。我突然想到病假可以用正则表达式来表示。下面是一个利用这一点的潜在解决方案：

首先，将周末的所有NAs替换为“D”，将工作日的所有NAs替换为“Y”（或其他2个字符）。在您的示例中，正常周末与正常工作日的处理方式不同，因为缺勤拼写可以包含正常周末，但不能包含正常工作日，因此它们应该具有不同的值。你知道吗

然后，对于每个ID，将数据展平，并将其连接成一个字符串。缺勤咒语可以由regex识别为"(S[SHD]*S)|S"。对于找到的每个regex字符串，在新表中创建一行，其中开始日期、结束日期和缺勤时间基于找到的字符串的开始位置、结束位置和长度。你知道吗

为了使这个解决方案起作用，我们需要假设每个ID都有相同数量的行对应于相同的日期，这样我们就可以正确地将字符串的起始位置映射到日期。你知道吗

网友

2楼 · 发布于 2024-05-14 17:41:20

基于@Cholts的思想，我编写了一个R代码来生成所需的输出

#clean the workspace
rm(list=ls(all=TRUE))
require(tidyr)
library(dplyr)
library(lubridate)
library(stringr)

ID = c(rep(1585,4),rep(1597,4))
Sun = c(rep("D",8))
Sat = c(rep("D",8))
Mon = c("Y","S","H","S","S","Y","H","Y")
Tue = c("Y","S","S","S","S","Y","S","Y")
Wed = c("Y","S","S","S","Y","Y","S","Y")
Thur = c("Y","S","Y","Y","S","Y","Y","Y")
Fri = c("Y","H","Y","Y","Y","H","Y","Y")
id_u = unique(ID)
df = data.frame(Sun,Mon,Tue,Wed,Thur,Fri,Sat)

new_df = df %>% unite(new,Sun,Mon,Tue,Wed,Thur,Fri,Sat,remove=FALSE,sep="")
vstr = new_df$new


#===========================================================
idd = c()
begin_date = c()
end_date = c()
duration = c()

n = 2
start_date = ymd('2017-04-02')

for(i in 1:n){
   ps = (i-1)*4 +1
   pe = (i-1)*4 + 4
   indstr = paste(vstr[ps:pe],collapse = "")
   loca = str_locate_all(indstr,"S[SHD]*S|S")

   rn = length(loca[[1]][,1])
   for (j in 1:rn){
     idd = append(idd,id_u[i])
     begin_date = append(begin_date,ymd(start_date+loca[[1]][j,1]-1))
     end_date = append(end_date,ymd(start_date+loca[[1]][j,2]-1))
     duration = append(duration,loca[[1]][j,2]-loca[[1]][j,1]+1)
   }

}

final_df = data.frame(idd,begin_date,end_date,duration)

输出为

> final_df    
   idd begin_date   end_date duration
1 1585 2017-04-10 2017-04-19       10
2 1585 2017-04-24 2017-04-26        3
3 1597 2017-04-03 2017-04-04        2
4 1597 2017-04-06 2017-04-06        1
5 1597 2017-04-18 2017-04-19        2

相关问题更多 >

编程相关推荐

热门问题

热门文章