大数据中字符串内的EOF
我在iPython里运行了一个读取CSV文件的操作,数据量比较大(超过1GB)。
结果我收到了这样的错误信息:
CParserError: 解析数据时出错。C错误:在第891743行的字符串内部遇到文件结束符(EOF)
我知道在读取数据时,有一个特定的字符串出现了问题,但我就是无法深入了解具体的错误,去修正它。
参考了这个链接:
https://github.com/pydata/pandas/issues/5500
里面的人深入分析了数据,并在数据层面上进行了修正。但由于我处理的数据量太大,我实在想不出该如何解决这个问题。我真的无法做到同样的事情。
1 个回答
0
如果你在用Linux系统,可以在终端里输入以下内容:
head -n891743 <filename> | tail -n1 > out
这条命令会把你csv文件里的第891743行写入一个叫“out”的文件里。