在Pandas DataFrame中按条件合并行

Question

我有一个数据表（df），最开始是从一个Excel文件里来的，前9行数据长这样：

      Control      Recd_Date/Due_Date                Action        Signature/Requester
0     2000-1703   2000-01-31 00:00:00           OC/OER/OPA/PMS/                 M WEBB
1           NaN   2000-02-29 00:00:00                       NaN              DATA CORP
2     2000-1776   2000-01-02 00:00:00            OC/ORA/OE/DCP/                  G KAN
3           NaN   2000-01-03 00:00:00           OC/ORA/ORO/PNC/              PALM POST
4           NaN                   NaN  FDA/OGROP/ORA/SE-FO/FLA-                    NaN
5           NaN                   NaN                DO/FLA-CB/                    NaN
6     2000-1983   2000-02-02 00:00:00  FDA/OGROP/ORA/CE-FO/CHI-                 M EGAN
7           NaN   2000-02-03 00:00:00                DO/CHI-CB/   BERNSTEIN LIEBHARD &
8           NaN                   NaN                       NaN             LONDON LLP

df['Control'][1]的类型是浮点数（float）；
df['Recd_Date/Due_Date'][1]的类型是日期时间（datetime.datetime）；
df['Action_Office'][1]的类型是浮点数（float）；
df['Signature/Requester'][1]的类型是Unicode字符串（unicode）。

我想把这个数据表（比如说前9行）转换成这样：

      Control            Recd_Date/Due_Date                           Action                                                            Signature/Requester
0     2000-1703   2000-01-31 00:00:00,2000-02-29 00:00:00           OC/OER/OPA/PMS/                                                      M WEBB,DATA CORP
1     2000-1776   2000-01-02 00:00:00,2000-01-03 00:00:00           OC/ORA/OE/DCP/OC/ORA/ORO/PNC/FDA/OGROP/ORA/SE-FO/FLA-DO/FLA-CB/      G KAN,PALM POST
2     2000-1983   2000-02-02 00:00:00,2000-02-03 00:00:00           FDA/OGROP/ORA/CE-FO/CHI-DO/CHI-CB/                                   M EGAN,BERNSTEIN LIEBHARD & LONDON LLP

简单来说：

每当pd.isnull(row['Control'])这个条件为真时，就把这一行和上一行合并（上一行的'Control'值不能是空）。
对于'Recd_Date/Due_Date'和'Signature/Requester'，在两个合并的行的每两个值之间加上','（或者'/'），比如说'2000-01-31 00:00:00,2000-02-29 00:00:00'和'G KAN,PALM POST'。
对于'Action'，直接合并，不加任何标点符号，比如说FDA/OGROP/ORA/CE-FO/CHI-DO/CHI-CB/。

有没有人能帮我一下？这是我正在尝试的代码：

for i, row in df.iterrows():
    if pd.isnull(df.ix[i]['Control_#']):
       df.ix[i-1]['Recd_Date/Due_Date'] = str(df.ix[i-1]['Recd_Date/Due_Date'])+'/'+str(df.ix[i]['Recd_Date/Due_Date'])
       df.ix[i-1]['Subject'] = str(df.ix[i-1]['Subject'])+' '+str(df.ix[i]['Subject'])
       if str(df.ix[i-1]['Action_Office'])[-1] == '-':
           df.ix[i-1]['Action_Office'] = str(df.ix[i-1]['Action_Office'])+str(df.ix[i]['Action_Office'])
       else:
           df.ix[i-1]['Action_Office'] = str(df.ix[i-1]['Action_Office'])+','+str(df.ix[i]['Action_Office'])
       if pd.isnull(df.ix[i-1]['Signature/Requester']):
           df.ix[i-1]['Signature/Requester'] = str(df.ix[i-1]['Signature/Requester'])+str(df.ix[i]['Signature/Requester'])
       elif str(df.ix[i-1]['Signature/Requester'])[-1] == '&':
           df.ix[i-1]['Signature/Requester'] = str(df.ix[i-1]['Signature/Requester'])+' '+str(df.ix[i]['Signature/Requester'])
       else:
           df.ix[i-1]['Signature/Requester'] = str(df.ix[i-1]['Signature/Requester'])+','+str(df.ix[i]['Signature/Requester'])
       df.drop(df.index[i])

为什么drop()不管用呢？我想删除当前行（如果它的['Control_#']是空的），这样下一行（如果它的['Control_#']也是空的）就可以和上一行（它的['Control_#']不是空的）合并，反复进行。

非常感谢！！

条件筛选数据处理数据类型数据清洗 pandas 时间序列数据合并数据框架

在Pandas DataFrame中按条件合并行

1 个回答

1) 行的分组：静态变量

完整的解决方案代码

撰写回答