读取分块的大制表符分隔文件时出现异常问题的回答

读取分块的大制表符分隔文件时出现异常

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我有一个350MB的标签分隔文本文件。如果我试图把它读入内存，就会出现内存不足的异常。所以我试着沿着这些思路（即，只在几列专栏中阅读）： <pre><code>import pandas as pd input_file_and_path = r'C:\Christian\ModellingData\X.txt' column_names = [ 'X1' # , 'X2 ] raw_data = pd.DataFrame() for chunk in pd.read_csv(input_file_and_path, names=column_names, chunksize=1000, sep='\t'): raw_data = pd.concat([raw_data, chunk], ignore_index=True) print(raw_data.head()) </code></pre> 不幸的是，我知道： ^{pr2}$ 在处理上述异常时，发生了另一个异常： <pre><code>Traceback (most recent call last): File "C:/xxxx/EdaDataPrepRange1.py", line 17, in <module> for chunk in pd.read_csv(input_file_and_path, header=None, names=column_names, chunksize=1000, sep='\t'): File "C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py", line 1007, in __next__ return self.get_chunk() File "C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py", line 1070, in get_chunk return self.read(nrows=size) File "C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py", line 1036, in read ret = self._engine.read(nrows) File "C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py", line 1848, in read data = self._reader.read(nrows) File "pandas\_libs\parsers.pyx", line 876, in pandas._libs.parsers.TextReader.read File "pandas\_libs\parsers.pyx", line 903, in pandas._libs.parsers.TextReader._read_low_memory File "pandas\_libs\parsers.pyx", line 968, in pandas._libs.parsers.TextReader._read_rows File "pandas\_libs\parsers.pyx", line 1094, in pandas._libs.parsers.TextReader._convert_column_data File "pandas\_libs\parsers.pyx", line 1141, in pandas._libs.parsers.TextReader._convert_tokens File "pandas\_libs\parsers.pyx", line 1240, in pandas._libs.parsers.TextReader._convert_with_dtype File "pandas\_libs\parsers.pyx", line 1256, in pandas._libs.parsers.TextReader._string_convert File "pandas\_libs\parsers.pyx", line 1494, in pandas._libs.parsers._string_box_utf8 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xae in position 5: invalid start byte </code></pre> 有什么想法吗。顺便说一句，我一般如何处理大文件和插补，例如缺失的变量？最后，我需要阅读所有的东西来确定，例如，要插补的中值。在

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

读取分块的大制表符分隔文件时出现异常

1 个回答

相关Python问题