如何更好地管理Pandas中的内存使用？

Question

我正在使用Pandas来存储、加载和处理金融数据。一个典型的数据文件是一个6000x4000的表格（6000只股票 x 4000个交易日期），如果说在某个日期有一半的股票的值是N/A，那么这个文件在CSV格式下的大小大约是200MB。我一直在用一台16GB内存的工作站，这对于加载这种大小的CSV文件、进行各种计算，然后存储结果来说是足够的。在一个典型的工作日，我在高峰使用时大约会用到10GB的内存。不过，我感觉我可以做得更高效一些。我希望能把这个内存使用量降到大约2GB，这样我就可以在一台只有4GB内存的普通笔记本上运行我每天的多个模型更新。这合理吗？我现在的内存使用量是否过高，不管我的硬件如何？

我知道上面的问题的答案取决于我具体在做什么。这里有一个我可能会运行的函数的例子：

def momentum_strategy():
    # prices.csv is a matrix containing stock prices for 6000 stocks
    # and 4000 trading dates
    prices = pd.read_csv("prices.csv")
    # Daily stock returns
    returns = prices/prices.shift(1) -1 
    # Annualized return volatility
    volatility = pd.rolling_std(returns, 21, 21) * 252**0.5
    # 6-month stock returns
    trail6monthreturns = prices/prices.shift(21*6) - 1
    # Rank of 6 month stock returns
    retrank = trail6monthreturns.rank(axis=1, ascending=False)
    # Portfolio of the top 100 stocks as measured by 6 month return
    positions = retrank.apply(lambda x: np.where(x<= 100, 1, np.nan))
    # Daily returns for top 100 stocks
    uptrendreturns = positions * returns
    # Daily return for 100 stock portfolio
    portfolioreturns = uptrendreturns.mean(1)
    return positions, portfolioreturns

我想到的一个办法是使用HDF5存储格式，而不是CSV格式。因为通过最近的测试和查看Pandas的文档以及StackOverflow，我发现HDF5在输入/输出时要快得多，并且在这些操作中占用的内存也更少。对此你有什么看法？例如，我每天会把开盘价、最高价、最低价、收盘价、成交量、流通股数、市盈率、盈利增长以及其他30个类似的指标存储在一个单独的CSV文件中（就像上面的例子，通常是6000只股票 x 4000个交易日期）。如果推荐切换到HDF5，我是否应该把这30多个DataFrame存储在30多个单独的H5文件中？

在上面的函数中，如果我想在函数完成后访问一些中间结果，但又不想占用太多内存，是否可以考虑把结果存储在一个包含HDF5文件的“临时”文件夹中？例如：

def momentum_strategy_hdf5():
    # prices.csv is a matrix containing stock prices for 6000 stocks
    # and 4000 trading dates
    prices = pd.read_csv("prices.csv")
    s = pd.HDFStore("temp.h5")
    # Daily stock returns
    s['returns'] = prices/prices.shift(1) -1 
    # Annualized return volatility
    s['volatility'] = pd.rolling_std(s['returns'], 21, 21) * 252**0.5
    # 6-month stock returns
    s['trail6monthreturns'] = prices/prices.shift(21*6)
    # Rank of 6 month stock returns
    s['retrank'] = s['trail6monthreturns'].rank(axis=1, ascending=False)
    # Portfolio of the top 100 stocks as measured by 6 month return
    s['positions'] = s['retrank'].apply(lambda x: np.where(x<= 100, 1, np.nan))
    # Daily returns for top 100 stocks
    s['uptrendreturns'] = s['positions'] * s['returns']
    # Daily return for 100 stock portfolio
    s['portfolioreturns'] = s['uptrendreturns'].mean(1)
    return s['positions'], s['portfolioreturns']

补充：我刚刚测试了上面这两个函数，第一个用了15秒，而第二个用了42秒。所以第二个函数的速度明显慢得多，但希望有更好的方法？

性能优化内存管理数据处理数据存储数据格式 pandas hdf5 金融数据

如何更好地管理Pandas中的内存使用？

2 个回答

撰写回答