Pandas: dropna后inplace重命名性能异常下降

Question

我在pandas的问题页面上报告了这个问题。与此同时，我在这里分享，希望能帮到其他人，避免他们遇到类似的问题。

在对一个需要优化的过程进行分析时，我发现如果不直接在原地重命名列，性能（执行时间）会提升大约120倍。

分析结果显示，这与垃圾回收有关（见下文）。

此外，通过避免使用dropna方法，可以恢复预期的性能。

下面这个简单的例子展示了大约12倍的性能差异：

import pandas as pd
import numpy as np

inplace=True

%%timeit
np.random.seed(0)
r,c = (7,3)
t = np.random.rand(r)
df1 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t)
indx = np.random.choice(range(r),r/3, replace=False)
t[indx] = np.random.rand(len(indx))
df2 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t)
df = (df1-df2).dropna()
## inplace rename:
df.rename(columns={col:'d{}'.format(col) for col in df.columns}, inplace=True)

100次循环，最佳结果为3次：每次循环15.6毫秒

以下是%%prun的第一行输出：

调用次数总时间每次调用时间累计时间每次调用时间文件名:行号(函数)
1  0.018 0.018 0.018 0.018 {gc.collect}

inplace=False

%%timeit
np.random.seed(0)
r,c = (7,3)
t = np.random.rand(r)
df1 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t)
indx = np.random.choice(range(r),r/3, replace=False)
t[indx] = np.random.rand(len(indx))
df2 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t)
df = (df1-df2).dropna()
## avoid inplace:
df = df.rename(columns={col:'d{}'.format(col) for col in df.columns})

1000次循环，最佳结果为3次：每次循环1.24毫秒

避免使用dropna

通过避免使用dropna方法，可以恢复预期的性能：

%%timeit
np.random.seed(0)
r,c = (7,3)
t = np.random.rand(r)
df1 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t)
indx = np.random.choice(range(r),r/3, replace=False)
t[indx] = np.random.rand(len(indx))
df2 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t)
#no dropna:
df = (df1-df2)#.dropna()
## inplace rename:
df.rename(columns={col:'d{}'.format(col) for col in df.columns}, inplace=True)

1000次循环，最佳结果为3次：每次循环865微秒

%%timeit
np.random.seed(0)
r,c = (7,3)
t = np.random.rand(r)
df1 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t)
indx = np.random.choice(range(r),r/3, replace=False)
t[indx] = np.random.rand(len(indx))
df2 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t)
## no dropna
df = (df1-df2)#.dropna()
## avoid inplace:
df = df.rename(columns={col:'d{}'.format(col) for col in df.columns})

1000次循环，最佳结果为3次：每次循环902微秒

performance optimization pandas data processing garbage collection execution time efficiency analysis inplace operation dropna method

Pandas: dropna后inplace重命名性能异常下降

inplace=True

inplace=False

避免使用dropna

1 个回答

撰写回答