如何清理数据,以便为城市对提供正确的到达代码
从图片上看,CSV就像第1列:城市对(出发-到达),第2列是出发代码,第3列是到达代码
正如您在第一列中看到的第319行,它是“伦敦-巴黎”,第2列是CDG,第3列是LHR,当它应该是相反的时候
同样在第324行中,杜塞尔多夫-巴黎在第2列中是CDG,在第3列中是DUS,而它应该是相反的
大多数CSV都是正确的,但也有很多类似的错误
有人能帮我对所有行进行排序吗?也许可以对第1列中的所有行进行索引,并确保“-”前后的文本与第2列和第3列中的代码匹配
old_index airports arr dep
0 319 London, United Kingdom - Paris, France CDG LHR
1 320 London, United Kingdom - Paris, France CDG LHR
2 321 London, United Kingdom - Paris, France CDG LHR
3 322 London, United Kingdom - Paris, France CDG LHR
4 323 London, United Kingdom - Paris, France CDG LHR
5 324 Dusseldorf, Germany - Paris, France CDG DUS
6 325 Amsterdam, Netherlands - Paris, France CDG AMS
7 326 Amsterdam, Netherlands - Paris, France CDG AMS
8 327 Amsterdam, Netherlands - Paris, France CDG AMS
9 328 Amsterdam, Netherlands - Paris, France CDG AMS
10 329 Amsterdam, Netherlands - Paris, France CDG AMS
例如,使用清理器查看其他问题中的数据
给定:
…来自your other question
试试看:
输出:
如果框架现在有太多的列,而您需要更干净的东西并对列重新排序,请尝试
final_df = df[['a', 'b', 'c', 'd']]
,其中abc是您想要的列和排序相关问题 更多 >
编程相关推荐