我是数据科学的新手,目前我正在进一步探索。我有超过600000列的数据集,我目前正在清理和检查不一致性或离群值。我遇到了一个我不知道如何解决的问题。我心里有一些解决办法,但我不知道怎么用熊猫。在
我已经把一些列的数据类型从object转换成int,我没有发现错误,并检查了它是否在int中。我检查了一列的值以检查实际数据。这涉及到年龄,我得到一个错误,说我的专栏有一个字符串。所以我用这个方法检查了一下:
print('if there is string in numeric column',np.any([isinstance(val, str) for val in homicide_df['Perpetrator Age']])
现在,我只想在这个字符串数据类型的列上打印所有索引及其值和类型。在
目前我想出了一个很好的解决方案:
def check_type(homicide_df):
for age in homicide_df['Perpetrator Age']:
if type(age) is str:
print(age, type(age))
check_type(homicide_df)
以下是我的一些问题:
我会很感激你的帮助。非常感谢
您可以使用^{} :
^{pr2}$
如果值是混合的-数字和非数字,最好是检查:
如果所有值都是数字,但所有
type
都是str
:但是,如果一些带字符串的数字:
用^{} 将非数值替换为
NaN
的int
的解决方案。然后有必要将NaN
替换为类似0
的数字,最后转换为int
:相关问题 更多 >
编程相关推荐