大Pandas数据帧上的外部合并导致内存错误——如何将“大数据”与Pandas合并？

one two three feature A 1 2 3 feature1 B 4 5 6 feature2 C 7 8 9 feature3 D 10 11 12 feature4 E 13 14 15 feature5 F 16 17 18 feature6 ...

File "/nfs/sw/python/python-3.5.1/lib/python3.5/site-packages/pandas/tools/merge.py", line 39, in merge return op.get_result() File "/nfs/sw/python/python-3.5.1/lib/python3.5/site-packages/pandas/tools/merge.py", line 217, in get_result join_index, left_indexer, right_indexer = self._get_join_info() File "/nfs/sw/python/python-3.5.1/lib/python3.5/site-packages/pandas/tools/merge.py", line 353, in _get_join_info sort=self.sort, how=self.how) File "/nfs/sw/python/python-3.5.1/lib/python3.5/site-packages/pandas/tools/merge.py", line 559, in _get_join_indexers return join_func(lkey, rkey, count, **kwargs) File "pandas/src/join.pyx", line 187, in pandas.algos.full_outer_join (pandas/algos.c:61680) File "pandas/src/join.pyx", line 196, in pandas.algos._get_result_indexer (pandas/algos.c:61978) MemoryError

2条回答

网友

1楼 · 编辑于 2024-05-15 00:48:46

您可以尝试通过^{}值、merge和最后一个^{}输出来筛选df1。

如果只需要外部连接，我想还有内存问题。但是如果为每个循环的过滤器输出添加一些其他代码，它就可以工作。

dfs = []
for val in df.feature.unique():
    df1 = pd.merge(df[df.feature==val], df2, on='feature', how='outer', suffixes=('','_key'))
    #http://stackoverflow.com/a/39786538/2901002
    #df1 = df1[(df1.start <= df1.start_key) & (df1.end <= df1.end_key)]
    print (df1)
    dfs.append(df1)

df = pd.concat(dfs, ignore_index=True)
print (df)

另一种解决方案是使用^{}。

网友

2楼 · 编辑于 2024-05-15 00:48:46

尝试为数值列指定数据类型以减小现有数据帧的大小，例如：

df[['one','two', 'three']] = df[['one','two', 'three']].astype(np.int32)

这将显著减少内存，并有望让您执行合并。

相关问题更多 >

编程相关推荐

热门问题

热门文章