loc是构建pandas数据帧的最佳方法吗？

网友

1楼 · 编辑于 2024-06-09 00:46:00

否，您不应该逐行构建数据帧。每次这样做，整个数据帧都必须被复制（它不是在内部扩展的），所以您使用的是n+（n-1）+（n-2）+。。。+1，O（n^2），内存（必须垃圾收集）。。。太可怕了，所以要花几个小时！

您想使用^{cd1>}，您有几个选项：

一次读取整个文件（即使只需几吉ram，700mb也可以）。
```
pd.read_csv('your_file.csv')
```
在csv中以块形式读取，然后将它们粘在一起（在内存中）。。。我想这并不会比上面的记忆少，但是如果你在这一步上大嚼一口，它通常是有用的。
```
pd.concat(pd.read_csv('foo.csv', chunksize=100000))  # not sure what optimum value is for chunksize
```
将csv分块读取并保存到pytables（而不是内存中），如果您的数据多于内存（并且您已经购买了更多内存），那么使用pytables/hdf5！
```
store = pd.HDFStore('store.h5')
for df in pd.read_csv('foo.csv', chunksize=100000):
    store.append('df', df)
```

网友

2楼 · 编辑于 2024-06-09 00:46:00

如果我理解正确的话，我想：

如果您在第2步中提供更多关于您使用什么标准的信息，我也可以在那里提供代码。在

网友

3楼 · 编辑于 2024-06-09 00:46:00

想到的几个选择

1）像您当前所做的那样解析文件，但是构建一个dict意图将其附加到数据帧中。完成后，将dict转换为一个Dataframe，然后使用concat（）将其与现有的Dataframe组合

2）使用read_csv（）将csv带到pandas中，然后过滤/解析所需内容，然后对现有数据帧执行concat（）