当NA是有效值时检测CSV文件截断

1条回答

网友

1楼 · 发布于 2024-05-19 00:43:01

默认情况下，Pandas将以下值解释为NaN（来自docs）：

The default NaN recognized values are ['-1.#IND', '1.#QNAN', '1.#IND', '-1.#QNAN', '#N/A N/A', '#N/A', 'N/A', 'n/a', 'NA', '#NA', 'NULL', 'null', 'NaN', '-NaN', 'nan', '-nan', ''].

为了避免NA被解析为空值，您需要设置keep_default_na=False并直接指定na_values

为了解决第二个问题，为了避免在读取列数可变的文件时出错，需要指定列名称。综合起来：

# new null values, removing NA from the list
new_na_values = ['-1.#IND', '1.#QNAN', '1.#IND', '-1.#QNAN', '#N/A N/A', '#N/A', 'N/A', 'n/a', '#NA', 'NULL', 'null', 'NaN', '-NaN', 'nan', '-nan', '']

# read in the file
df = pd.read_csv("<path to file>.csv", keep_default_na=False, na_values=new_na_values, names=["col1", "col2", "col3", "col4"])

编辑：看起来Pandas的最新版本现在可以读入列数可变的文件，而无需显式设置列名（例如，建议使用here）。因此，根据您的Pandas版本，您可能不需要names参数

相关问题更多 >

编程相关推荐

热门问题

热门文章

当NA是有效值时检测CSV文件截断

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >