这对我来说有点难以解释,所以我会尽力的。 我在玩泰坦尼克号幸存者数据集,列“小屋”有很多遗漏的值。所以我决定把重点放在“Cabin”和“Fare”之间的相关性上,并创建了一个名为“Fare\u sort”的新数据帧,它就是这两个列,其中“Fare”被排序
以下是数据集“Fare\u sort”中的“head”:
Fare Cabin
732 0.0000 NaN
413 0.0000 NaN
806 0.0000 A36
266 0.0000 NaN
633 0.0000 NaN
674 0.0000 NaN
815 0.0000 B102
372 0.0000 B52 B54 B56
21 3.1708 NaN
378 4.0125 NaN
872 5.0000 B51 B53 B55
这是尾巴
527 221.7792 C95
114 221.7792 C55 C57
81 221.7792 C55 C57
156 221.7792 C97
716 227.5250 C45
380 227.5250 NaN
557 227.5250 NaN
700 227.5250 C62 C64
299 247.5208 B58 B60
118 247.5208 B58 B60
184 247.5208 B58 B60
375 262.3750 NaN
24 262.3750 B57 B59 B63 B66
742 262.3750 B57 B59 B63 B66
59 262.3750 B61
然后我创建了另一个只包含“Cabin”有值的行的数据库,并将其称为Overview
Overview =Fare_sort[Fare_sort.Cabin.notnull()==True]
总览的头像是这样的:
Fare Cabin
806 0.0 A36
815 0.0 B102
372 0.0 B52 B54 B56
263 0.0 B94
872 5.0 B51 B53 B55
我现在要做的是创建另一个dataframe,它将dataframe“Overview”中的“Fare”列的项目与原始dataframe“Fare\u sort”的“Fare”列进行比较,如果Overview.Fare==Fare\u sort.Fare,我想将Fare\u sort中的那一行(因此将添加Fare和cain)附加到新创建的dataframe df中
因此,从上面发布的项目来看,新的数据框如下所示:
Fare Cabin
732 0.0000 NaN
413 0.0000 NaN
806 0.0000 A36
266 0.0000 NaN
633 0.0000 NaN
674 0.0000 NaN
815 0.0000 B102
372 0.0000 B52 B54 B56
872 5.0000 B51 B53 B55
因此,基本上,“Cabin”至少有一个值的“Fare”价格被添加到新的数据帧中
我试着玩弄这个代码
for i in Overview.Fare:
if i == Fare_sort.Fare:
df = df.append(Fare_sort.Fare)
但是这个代码产生了错误
谢谢
目前没有回答
相关问题 更多 >
编程相关推荐