2024-05-17 00:54:18 发布
网友
我在Python编码方面是个新手,在实习期间我正在处理一个大数据帧。在
我遇到了一个问题,因为有时我的数据帧中有错误的值。例如,我发现字符串类型值("broken leaf")而不是整数类型值("120 cm")或(NaN)。在
"broken leaf"
"120 cm"
NaN
我知道有df.replace()函数,但是你需要知道有错误的值。那么我怎样才能发现我的数据帧中是否有错误的值呢?在
df.replace()
提前谢谢你
“120cm”是一个字符串,而不是一个整数,所以这是一个令人困惑的例子。一些查找“意外”值的方法包括:
使用“describe”检查数值范围,看看是否有超出预期范围的数值。在
使用“unique”查看希望有少量允许值的情况下的所有值集,例如性别字段。在
查看列的数据类型以查看是否有字符串潜入到本应为数字的字段中。在
如果特定列的有效值遵循可预测的模式,则使用regexps。在
“120cm”是一个字符串,而不是一个整数,所以这是一个令人困惑的例子。一些查找“意外”值的方法包括:
使用“describe”检查数值范围,看看是否有超出预期范围的数值。在
使用“unique”查看希望有少量允许值的情况下的所有值集,例如性别字段。在
查看列的数据类型以查看是否有字符串潜入到本应为数字的字段中。在
如果特定列的有效值遵循可预测的模式,则使用regexps。在
相关问题 更多 >
编程相关推荐