折叠共享一列值的python数据帧行

import pandas as pd data = {"description": ["AAAA:A", "AAAA:B", "AAAA:C", "AAAA:D", "BBBB:A", "BBBB:B"], "sequence": ["AAAAAAAAAAA", "AAAAAAABBBBBB", "AAAAAAAACCCCCCC", "AAAAAAAADDDDDDD", "BBBBBBAAAAA", "BBBBBBBBBBBBB"]} df = pd.DataFrame(data) print df # description sequence #0 AAAA:A AAAAAAAAAAA #1 AAAA:B AAAAAAABBBBBB #2 AAAA:C AAAAAAAACCCCCCC #3 AAAA:D AAAAAAAADDDDDDD #4 BBBB:A BBBBBBAAAAA #5 BBBB:B BBBBBBBBBBBBB

df = df.apply(lambda row: pd.Series({"description": row["description"].split(":")[0], "sequence_{}".format(row["description"].split(":")[1]): row["sequence"]}), axis=1) print df # description sequence_A sequence_B sequence_C sequence_D #0 AAAA AAAAAAAAAAA NaN NaN NaN #1 AAAA NaN AAAAAAABBBBBB NaN NaN #2 AAAA NaN NaN AAAAAAAACCCCCCC NaN #3 AAAA NaN NaN NaN AAAAAAAADDDDDDD #4 BBBB BBBBBBAAAAA NaN NaN NaN #5 BBBB NaN BBBBBBBBBBBBB NaN NaN

2条回答

网友

1楼 · 编辑于 2024-06-16 10:43:13

split然后pivot

df[['New1','New2']]=df.description.str.split(':',expand=True)
s=df[['New1','New2','sequence']]

s.pivot(*s.columns).add_prefix('sequence_')

Out[863]: 
New2   sequence_A     sequence_B       sequence_C       sequence_D
New1                                                              
AAAA  AAAAAAAAAAA  AAAAAAABBBBBB  AAAAAAAACCCCCCC  AAAAAAAADDDDDDD
BBBB  BBBBBBAAAAA  BBBBBBBBBBBBB             None             None

网友

2楼 · 编辑于 2024-06-16 10:43:13

使用轴

df[['description', 'seq']] = df['description'].str.split(':', expand = True)
df.pivot('description', 'seq', 'sequence').add_prefix('Sequence_')


seq     Sequence_A  Sequence_B      Sequence_C      Sequence_D
description             
AAAA    AAAAAAAAAAA AAAAAAABBBBBB   AAAAAAAACCCCCCC AAAAAAAADDDDDDD
BBBB    BBBBBBAAAAA BBBBBBBBBBBBB   None            None

相关问题更多 >

编程相关推荐

热门问题

热门文章