在Python中转换用户访问矩阵中的用户访问数据帧

d = pd.DataFrame({ 'users': [ [('007', "us1", "us2", "time1", 'time2', 4)], [('008', "us1", "us2", "time1", 'time2', 5)], [('009', "us1", "us2", "time1", 'time2', 6)], [('007', 'us2', "us3", "time1", 'time2', 4)], [('008', 'us2', "us3", "time1", 'time2', 7)], [('009', 'us2', "us3", "time1", 'time2', 11)], [('001', 'us5', 'us1', "time1", 'time2', 0)], [('008', 'us5', 'us1', "time1", 'time2', 1)], [('007',"us3", "us2", "time1", 'time2', 2)], [('007',"us3", "us2", "time1", 'time2', 34)], [('009',"us3", "us2", "time1", 'time2', 67)]] })

1条回答

网友

1楼 · 发布于 2024-06-16 15:50:45

>>> df = pd.DataFrame({
... 'users': [
...     [('007', "us1", "us2", "time1", 'time2', 4)],
...     [('008', "us1", "us2", "time1", 'time2', 5)],
...     [('009', "us1", "us2", "time1", 'time2', 6)],
...     [('007', 'us2', "us3", "time1", 'time2', 4)],
...     [('008', 'us2', "us3", "time1", 'time2', 7)], 
...     [('009', 'us2', "us3", "time1", 'time2', 11)], 
...     [('001', 'us5', 'us1', "time1", 'time2', 0)], 
...     [('008', 'us5', 'us1', "time1", 'time2', 1)], 
...     [('007',"us3", "us2", "time1", 'time2', 2)],
...     [('007',"us3", "us2", "time1", 'time2', 34)],
...     [('009',"us3", "us2", "time1", 'time2', 67)]]
...   })
>>> df =(pd.DataFrame(df["users"].explode().tolist(),columns=["ID","USER1","USER2","TAU1","TAU2","DELAY"])
.groupby(["USER1","USER2"])["ID"].agg(list).to_frame().unstack())
    >>> df
                   ID                                  
    USER2         us1              us2              us3
    USER1                                              
    us1           NaN  [007, 008, 009]              NaN
    us2           NaN              NaN  [007, 008, 009]
    us3           NaN  [007, 007, 009]              NaN
    us5    [001, 008]              NaN              NaN

然后您可以展平ID级别，添加一个新的us5列，并用空列表填充NAN

编辑

如果不希望某些条目进入列表，可以在groupby之前删除小于（或大于）首选值的行

EDIT2

>>> df =(pd.DataFrame(df["users"].explode().tolist(),columns=["ID","USER1","USER2","TAU1","TAU2","DELAY"])
... .groupby(["USER1","USER2"])["ID"].agg(list).to_frame().unstack())
>>> df.columns = df.columns.get_level_values(1)
>>> combined = df.index|df.columns
>>> for col in combined:
...     if col not in df.columns:
...         df[col] = np.nan
>>> df
USER2         us1              us2              us3  us5
USER1                                                   
us1           NaN  [007, 008, 009]              NaN  NaN
us2           NaN              NaN  [007, 008, 009]  NaN
us3           NaN  [007, 007, 009]              NaN  NaN
us5    [001, 008]              NaN              NaN  NaN

相关问题更多 >

编程相关推荐

热门问题

热门文章