数据科学分析中分类变量的清理与填充

data = {'index': [1,2,3,4,5,6,7,8,9], 'location_name': ['kalaymous', 'kalaymous', 'kalaymous', 'kalaymous', 'clear_creek', 'clear_creek', 'clear_creek', 'clear_creek', 'clear_creek'], 'location_id': [100,100,0,100,300,625,300,300,300], 'location_country': ['GRC', 'GRC', 'ESP', 'GRC', 'USA', 'IRE', 'USA', 'USA', 'USA']} df = pd.DataFrame.from_dict(data)

improved_data = {'index': [1,2,3,4,5,6,7,8,9], 'location_name': ['kalaymous', 'kalaymous', 'kalaymous', 'kalaymous', 'clear_creek', 'clear_creek', 'clear_creek', 'clear_creek', 'clear_creek'], 'location_id': [100,100,100,100,300,300,300,300,300], 'location_country': ['GRC', 'GRC', 'GRC', 'GRC', 'USA', 'USA', 'USA', 'USA', 'USA']} new_df = pd.DataFrame.from_dict(improved_data)

3条回答

网友

1楼 · 编辑于 2024-05-29 02:41:09

我们可以将^{}与^{}结合使用，并使用^{}将其转换回您的数据帧：

m1 = df.groupby('location_name')['location_id'].agg(pd.Series.mode)
m2 = df.groupby('location_name')['location_country'].agg(pd.Series.mode)

df['location_id'] = df['location_name'].map(m1)
df['location_country'] = df['location_name'].map(m2)

print(df)
   index location_name  location_id location_country
0      1     kalaymous          100              GRC
1      2     kalaymous          100              GRC
2      3     kalaymous          100              GRC
3      4     kalaymous          100              GRC
4      5   clear_creek          300              USA
5      6   clear_creek          300              USA
6      7   clear_creek          300              USA
7      8   clear_creek          300              USA
8      9   clear_creek          300              USA

网友

2楼 · 编辑于 2024-05-29 02:41:09

正如Erfan提到的，对第一个问题的预期结果有一个看法是很有帮助的。你知道吗

对于第二个，pandas有一个fillna方法。可以使用此方法填充NaN值。例如，要用“UNKNOWN\u LOCATION”填充值，可以执行以下操作：

df.fillna('UNKNOWN_LOCATION')

请参阅第一个问题的潜在解决方案：

df.groupby('location_name')[['location_id', 'location_country']].apply(lambda x: x.mode())

网友

3楼 · 编辑于 2024-05-29 02:41:09

您可以通过使用^{}计算模式来使用transform：

df=(df[['location_name']].join(df.groupby('location_name').transform(lambda x: x.mode()
                                                   .iat[0])).reindex(df.columns,axis=1))
print(df)

  index location_name location_id location_country
0     1     kalaymous         100              GRC
1     1     kalaymous         100              GRC
2     1     kalaymous         100              GRC
3     1     kalaymous         100              GRC
4     5   clear_creek         300              USA
5     5   clear_creek         300              USA
6     5   clear_creek         300              USA
7     5   clear_creek         300              USA
8     5   clear_creek         300              USA

相关问题更多 >

编程相关推荐

热门问题

热门文章