如何查找pandas数据帧中是否有错误的值?

2024-05-17 00:54:18 发布

您现在位置:Python中文网/ 问答频道 /正文

我在Python编码方面是个新手,在实习期间我正在处理一个大数据帧。在

我遇到了一个问题,因为有时我的数据帧中有错误的值。例如,我发现字符串类型值("broken leaf")而不是整数类型值("120 cm")或(NaN)。在

我知道有df.replace()函数,但是你需要知道有错误的值。那么我怎样才能发现我的数据帧中是否有错误的值呢?在

提前谢谢你


Tags: 数据函数字符串类型编码df错误cm
1条回答
网友
1楼 · 发布于 2024-05-17 00:54:18

“120cm”是一个字符串,而不是一个整数,所以这是一个令人困惑的例子。一些查找“意外”值的方法包括:

使用“describe”检查数值范围,看看是否有超出预期范围的数值。在

使用“unique”查看希望有少量允许值的情况下的所有值集,例如性别字段。在

查看列的数据类型以查看是否有字符串潜入到本应为数字的字段中。在

如果特定列的有效值遵循可预测的模式,则使用regexps。在

相关问题 更多 >