对于与给定元组属于同一类的所有示例，是否按属性平均值处理python中缺少的值？

location bedrooms Size(sq. ft.) price abc 7 4500 5.5 Crore cde 6 2250 2.1 Crore bda 7 4500 4.75 Crore abc NA 4500 4.5 Crore abc 5 2250 2.3 Crore bda NA 1350 54 Lakh cde 5 1575 1.6 Crore bda NA 2452 3.25 Crore bda 3 1260 95 Lakh cde 6 2250 2.15 Crore abc 8 4500 3.5 Crore

1条回答

网友

1楼 · 发布于 2024-05-16 07:13:05

您可以在python中使用groupby和transform方法来获得所需的结果。你知道吗

示例：

d = {'col1': ['a', 'b', 'a', 'a', 'b', 'a'], 'col2': [3, 4, None, 5, None, 7], 'col3':[4,5,6,7,8,6]}
df = pd.DataFrame(data=d)

输出：

  col1  col2  col3
0    a   3.0     4
1    b   4.0     5
2    a   NaN     6
3    a   5.0     7
4    b   NaN     8
5    a   7.0     6

现在使用groupby和transform方法：

df["col2"] = df.groupby("col1").transform(lambda x: x.fillna(x.mean()))

输出

  col1  col2  col3
0    a   3.0     4
1    b   4.0     5
2    a   5.0     6
3    a   5.0     7
4    b   4.0     8
5    a   7.0     6

如您所见，col2中的Nan值被替换为col1中类的平均值。例如，索引2变为5，即（3+5+7）/3，索引4变为4，即4/1。你知道吗

如果您想添加多个列作为“grouper”，只需在groupby方法中传入更多列即可。但是，这些值仅取所有列中值完全相同的值的平均值。在您的情况下，您可以做的是：

df["bedrooms"] = df.groupby(["location","Size(sq. ft.)", "price"]).transform(lambda x: x.fillna(x.mean()))

例如，如果位置是abc，大小是4000，价格是2000，那么这三个值相同的值的所有实例的平均值。但是，如果列具有abc，大小为4000，价格为2001，则不会使用具有相同位置和大小，但价格不同的值的平均值。你知道吗

您需要一个helper列来定义相似性度量，以便使用一系列值的平均值。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章