在大量列上连接两个数据帧

user page_name category tag1 tag2 tag3 0 random guy BlackBuck Transport/Freight 1 1 0 1 mank nion DJ CHETAS Arts/Entertainment 0 1 1 2 random guy GiveMeSport Sport 1 0 1 3 mank nion Gurkeerat Singh Actor/Director 1 0 1

user page_name category tag1 tag2 tag3 0 pop rajuel WOW Editions Concert Tour NaN NaN NaN 1 Roshan ghai MensXP News/Media Website NaN NaN NaN 2 mank nion Celina Jaitly Actress NaN NaN NaN 3 pop rajuel 500 Startups App Page 1.0 0.0 1.0 4 Roshan ghai No Abuse Community NaN NaN NaN 5 random guy Analytics Ninja Insurance Company NaN NaN NaN 6 pop rajuel Biswapati Sarkar Actor/Director 1.0 0.0 0.0 7 Roshan ghai the smartian Public Figure 0.0 1.0 1.0

user tag1 tag2 tag3 0 mank nion 1.0 1.0 2.0 1 random guy 2.0 1.0 1.0 2 Roshan ghai 0.0 1.0 1.0 3 mank nion NaN NaN NaN 4 pop rajuel 2.0 0.0 1.0 5 random guy NaN NaN NaN

1条回答

网友

1楼 · 发布于 2024-04-29 00:45:15

我认为你需要^{}和^{}并聚合^{}：

df = pd.concat([mdf1,mdf2])
print (df)
          user         page_name            category  tag1  tag2  tag3
0   random guy         BlackBuck   Transport/Freight   1.0   1.0   0.0
1    mank nion         DJ CHETAS  Arts/Entertainment   0.0   1.0   1.0
2   random guy       GiveMeSport               Sport   1.0   0.0   1.0
3    mank nion   Gurkeerat Singh      Actor/Director   1.0   0.0   1.0
0   pop rajuel      WOW Editions        Concert Tour   NaN   NaN   NaN
1  Roshan ghai            MensXP  News/Media Website   NaN   NaN   NaN
2    mank nion     Celina Jaitly             Actress   NaN   NaN   NaN
3   pop rajuel      500 Startups            App Page   1.0   0.0   1.0
4  Roshan ghai          No Abuse           Community   NaN   NaN   NaN
5   random guy   Analytics Ninja   Insurance Company   NaN   NaN   NaN
6   pop rajuel  Biswapati Sarkar      Actor/Director   1.0   0.0   0.0
7  Roshan ghai      the smartian       Public Figure   0.0   1.0   1.0

print (df.groupby('user', as_index=False).sum())
          user  tag1  tag2  tag3
0  Roshan ghai   0.0   1.0   1.0
1    mank nion   1.0   1.0   2.0
2   pop rajuel   2.0   0.0   1.0
3   random guy   2.0   1.0   1.0

列page_name和category被省略，因为automatic exclusion of nuisance columns。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章