Pandas.read_csv（）内存

tp = pd.read_csv('capture2.csv', iterator=True, chunksize=10000, dtype={'timestamp': float, 'vdd_io_soc_i': float, 'vdd_io_soc_v': float, 'vdd_io_plat_i': float, 'vdd_io_plat_v': float, 'vdd_ext_flash_i': float, 'vdd_ext_flash_v': float, 'vsys_i vsys_v': float, 'vdd_aon_dig_i': float, 'vdd_aon_dig_v': float, 'vdd_soc_1v8_i': float, 'vdd_soc_1v8_v': float}) df = pd.concat(tp,ignore_index=True)

3条回答

网友

1楼 · 编辑于 2024-04-19 19:12:04

请检查一下Python版本好吗？可能你的32位有一些限制。

尝试安装64位并尝试将数据加载到pandas中，而不使用concat，例如：

df = pd.read_csv('/path/to/csv')

网友

2楼 · 编辑于 2024-04-19 19:12:04

Pandas read_csv（）具有低内存标志。

tp  = pd.read_csv('capture2.csv',low_memory=True, ...)

只有在使用C解析器时，low_memory标志才可用

engine : {‘c’, ‘python’}, optional
Parser engine to use. The C engine is faster while the python engine is currently more feature-complete.

您也可以使用内存映射标志

memory_map : boolean, default False
If a filepath is provided for filepath_or_buffer, map the file object directly onto memory and access the data directly from there. Using this option can improve performance because there is no longer any I/O overhead.

source

p.s.使用64位python-请参阅我的评论

网友

3楼 · 编辑于 2024-04-19 19:12:04

如果试图读取的文件太大，无法作为一个整体包含在内存中，则也无法将其分块读取，然后将其重新组合到内存中，因为最终至少需要同样多的内存。

您可以尝试在chuncks中读取文件，过滤掉每个chunck中不必要的行（基于您提到的条件），然后重新组合数据帧中的其余行。

这样的话：

df = pd.concat(apply_your_filter(chunck_df) for chunck_df in pd.read_csv('capture2.csv', iterator=True, chunksize=10000, dtype={'timestamp': float, 'vdd_io_soc_i': float, 'vdd_io_soc_v': float, 'vdd_io_plat_i': float, 'vdd_io_plat_v': float, 'vdd_ext_flash_i': float, 'vdd_ext_flash_v': float, 'vsys_i vsys_v': float, 'vdd_aon_dig_i': float, 'vdd_aon_dig_v': float, 'vdd_soc_1v8_i': float, 'vdd_soc_1v8_v': float}), ignore_index=True)

和/或找到每个chunck的最大值，然后找到每个chunck的最大值。

相关问题更多 >

编程相关推荐

热门问题

热门文章