大数据中字符串内的EOF

3 投票
1 回答
4277 浏览
提问于 2025-04-18 08:21

我在iPython里运行了一个读取CSV文件的操作,数据量比较大(超过1GB)。

结果我收到了这样的错误信息:

CParserError: 解析数据时出错。C错误:在第891743行的字符串内部遇到文件结束符(EOF)

我知道在读取数据时,有一个特定的字符串出现了问题,但我就是无法深入了解具体的错误,去修正它。

参考了这个链接:

https://github.com/pydata/pandas/issues/5500

里面的人深入分析了数据,并在数据层面上进行了修正。但由于我处理的数据量太大,我实在想不出该如何解决这个问题。我真的无法做到同样的事情。

1 个回答

0

如果你在用Linux系统,可以在终端里输入以下内容:

head -n891743 <filename> | tail -n1 > out

这条命令会把你csv文件里的第891743行写入一个叫“out”的文件里。

撰写回答