Pandas纪念馆

# Merge the files with pandas python import pandas as pd # Read lookup file from GTEx df1 = pd.read_table("GTEx.lookup_table.txt.gz", compression="gzip", sep="\t", header=0) df1.columns = df1.columns.str.replace('rs_id_dbSNP147_GRCh37p13', 'rsid') df2a = pd.read_table("Proximal.nominals.FULL.txt.gz", sep=" ", header=None, compression="gzip") # this file gives the Memory error df2b = pd.read_table("Proximal.nominals2.FULL.txt.gz", sep=" ", header=None, compression="gzip") # this file merges just fine df2a_merge = pd.merge(left=df1, right=df2a, left_on="rsid", right_on='rsid') df2b_merge = pd.merge(left=df1, right=df2b, left_on="rsid", right_on='rsid')

Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/users/jfertaj/python/lib/python2.7/site-packages/pandas/core/reshape/merge.py", line 54, in merge return op.get_result() File "/users/jfertaj/python/lib/python2.7/site-packages/pandas/core/reshape/merge.py", line 569, in get_result join_index, left_indexer, right_indexer = self._get_join_info() File "/users/jfertaj/python/lib/python2.7/site-packages/pandas/core/reshape/merge.py", line 734, in _get_join_info right_indexer) = self._get_join_indexers() File "/users/jfertaj/python/lib/python2.7/site-packages/pandas/core/reshape/merge.py", line 713, in _get_join_indexers how=self.how) File "/users/jfertaj/python/lib/python2.7/site-packages/pandas/core/reshape/merge.py", line 998, in _get_join_indexers return join_func(lkey, rkey, count, **kwargs) File "pandas/_libs/join.pyx", line 71, in pandas._libs.join.inner_join (pandas/_libs/join.c:120300)

1条回答

网友

1楼 · 发布于 2024-06-16 08:50:19

我建议对这种类型的大型数据帧使用^{}包。
特别是，请参见它的DataFrame，这是一种处理大熊猫数据帧并并行化其计算的方法。

您的代码可以这样修改：

import dask.dataframe as dd

dd1 = dd.from_pandas(df1, npartitions=10)
dd2a = dd.from_pandas(df2a, npartitions=10)

dd2a_merge = dd1.merge(dd2a, left_on="rsid",  right_on='rsid')
dd2a_merge = dd2a_merge.compute()

相关问题更多 >

编程相关推荐

热门问题

热门文章