如何验证csv数据读取者pandas.read_csv?

2024-05-14 23:14:40 发布

您现在位置:Python中文网/ 问答频道 /正文

希望使用Python和Pandas验证csv文件中的数据。当输入干净的数据时一切正常。然而,当数据出现问题时,问题就很难找到。提出任何错误都是很好的。下面是一些伪代码:

dtypes = {'Date': 'str', 'yesno': 'str', 'int_val': 'int', 'decimal_value': 'str'}
df = pd.read_csv(filename, dtype=dtypes)

# Ensure exceptions are thrown for invalid data.

# valid date format in date. ValueError raised for invalid data.
pd.to_datetime(df['Date'])

# 'yes' or 'no' for the yesno field. (has to be in a list of values)
# valid integer for int_val.
# a valid integer or decimal number for decimal_value

我甚至不确定pd.to_日期时间是验证日期的最佳方法。这样做的好方法是什么?在


Tags: csvto数据dffordatevalueval
1条回答
网友
1楼 · 发布于 2024-05-14 23:14:40

yesno字段为“是”或“否”。(必须在值列表中):

df.yesno.isin(['yes','no']).all() # Returns False if there are any other values

整数的有效整数:

^{pr2}$

十进制值的有效整数或十进制数:

df.decimal_value.astype(float) # similar to above

使用pd.to_datetime()来验证日期可能是最好的;如果需要,您还可以指定日期的格式,例如使用关键字参数format = '%y-%m-%d',该参数要求日期的格式为yyyy-mm-dd。在

相关问题 更多 >

    热门问题