如何根据每一行的内容重新排列每一个单元格？

df = pd.DataFrame( [["'gender': 'Female'", "'nationality': 'ESP'", "'document_type': 'national_identity_card'", "'date_of_expiry': '2025-11-06'", "'issuing_country': 'ESP'"], ["'gender': 'Male'", "'issuing_date': '2015-05'", "'document_type': 'passport'", "'issuing_country': 'FRA'", None], ["'document_type': 'national_identity_card'", "'issuing_country': 'GRC'", None, None, None]], index=[0,1,2], columns=['column1', 'column2', 'column3', 'column4', 'column5'])

In[1]:df Out[1]: column1 column2 column3 column4 column5 0 'gender': 'Female' 'nationality': 'ESP' 'document_type': 'national_identity_card' 'date_of_expiry': '2025-11-06' 'issuing_country': 'ESP' 1 'gender': 'Male' 'issuing_date': '2015-05' 'document_type': 'passport' 'issuing_country': 'FRA' None 2 'document_type': 'national_identity_card' 'issuing_country': 'GRC' None None None

In[2]:df2 Out[2]: df2 document_type gender nationality issuing_date date_of_expiry issuing_country 0 NaN NaN NaN NaN NaN NaN 1 NaN NaN NaN NaN NaN NaN 2 NaN NaN NaN NaN NaN NaN

document_type gender nationality issuing_date date_of_expiry issuing_country 0 national_identity_card Female ESP None 2025-11-06 ESP 1 passport Male None 2015-05 None FRA 2 national_identity_card None None None None GRC

2条回答

网友

1楼 · 编辑于 2024-05-21 00:13:11

您可以使用正则表达式：

string_df = df.applymap(str).sum(axis=1)

columns = ['gender', 'nationality', 'document_type', 'date_of_expiry', 'issuing_date', 'issuing_country']
result = [string_df.str.extract(r"'{}': '([\w-]+)'".format(column), expand=False) for column in columns] 

print(pd.concat(result, axis=1).rename(columns={index: column for index, column in enumerate(columns)}))

输出：

   gender nationality           document_type date_of_expiry issuing_date  \
0  Female         ESP  national_identity_card     2025-11-06          NaN   
1    Male         NaN                passport            NaN      2015-05   
2     NaN         NaN  national_identity_card            NaN          NaN   

  issuing_country  
0             ESP  
1             FRA  
2             GRC

网友

2楼 · 编辑于 2024-05-21 00:13:11

这是由于一个损坏的数据结构，所以我们需要首先解决这个问题，看起来每个单元格都有一个dict，所以我们使用方法ast

import ast
yourdf=('{'+df.stack()+'}').apply(ast.literal_eval).apply(pd.Series).fillna('').sum(level=0)
yourdf
Out[19]: 
   gender nationality     ...      issuing_country issuing_date
0  Female         ESP     ...                  ESP             
1    Male                 ...                  FRA      2015-05
2                         ...                  GRC             
[3 rows x 6 columns]

相关问题更多 >

编程相关推荐

热门问题

热门文章