我在做一些数据分析,数据在熊猫DataFrame
,df
。你知道吗
我在df
上定义了几个函数来执行进程。你知道吗
出于封装目的,我定义如下函数:
def df_process(df):
df=df.copy()
# do some process work on df
return df
在Jupyter笔记本中,我将函数用作
df = df_process(df)
使用df.copy()
的原因是,否则,无论是否重新分配,原始的df
都会被修改。(见Python & Pandas: How to return a copy of a dataframe?)
我的问题是:
这里使用df=df.copy()
合适吗?如果不是,应该如何定义函数处理数据?
由于我使用了几个这样的数据处理函数,它会影响我的程序的性能吗?多少钱?
最好是:
这里的关键是,如果您必须制作一个副本,只制作一个,处理它,将结果存储在某个地方,然后通过重新分配
df_copy
来处理它。你的问题没有提到为什么你要挂在处理过的副本,所以这假设你不需要。你知道吗相关问题 更多 >
编程相关推荐