Python pandas 时间序列与层次索引及滚动/移位

Question

我在理解pandas中的滚动和移动的概念时遇到了困难。这个论坛里有很多好的建议，但我在我的情况中应用这些建议时失败得很惨。

现在我只能用传统的方法遍历时间序列，但这真是太慢了，处理150,000行数据花了我大约8个小时，这大约是3天的数据量。现在我还有2个月的数据要处理，估计等我从休假回来时都还没处理完，更别提如果停电了我就得重新开始，而这次我可没有休假可以等。

我有以下15分钟的股票价格时间序列（在日期时间（时间戳）和股票代码上有层级索引，唯一的原始列是收盘价）：

                                     closePrice
    datetime               ticker
    2014-02-04 09:15:00    AAPL      xxx
                           EQIX      xxx
                           FB        xxx
                           GOOG      xxx
                           MSFT      xxx
    2014-02-04 09:30:00    AAPL      xxx
                           EQIX      xxx
                           FB        xxx
                           GOOG      xxx
                           MSFT      xxx
    2014-02-04 09:45:00    AAPL      xxx
                           EQIX      xxx
                           FB        xxx
                           GOOG      xxx
                           MSFT      xxx

我需要添加两列：

12sma，12天的移动平均。经过几个小时的搜索，最好的建议是使用rolling_mean，所以我试了一下。但由于我的时间序列结构，它并没有成功。也就是说，它是从上到下计算的，第一个移动平均是基于前12行计算的，而不考虑不同股票代码的值。我该如何让它根据索引来计算，也就是先按日期时间，然后按股票代码，这样我就能得到比如AAPL的移动平均？目前它的计算方式是（AAPL+EQIX+FB+GOOG+MSFT+AAPL...直到第12行）/ 12。
一旦我得到了12sma列，我还需要12ema列，也就是12天的指数移动平均。计算时，每个股票的时间序列中的第一个值会直接复制同一行的12sma值。之后，我需要同一行的收盘价和上一行的12ema值，也就是过去15分钟的值。我做了很长时间的研究，似乎解决方案是将滚动和移动结合起来，但我不知道该如何把它们组合在一起。

如果有人能帮我，我会非常感激。

谢谢。

编辑：

感谢Jeff的建议，在交换和排序索引层级后，我能够用rolling_mean()正确计算12sma，并且努力在同一时间戳插入了从12sma复制的第一个12ema值：

                                 close  12sma  12ema
    sec_code datetime
    AAPL     2014-02-05 11:45:00 113.0  NaN    NaN
             2014-02-05 12:00:00 113.2  NaN    NaN
             2014-02-05 13:15:00 112.9  NaN    NaN
             2014-02-05 13:30:00 113.2  NaN    NaN
             2014-02-05 13:45:00 113.0  NaN    NaN
             2014-02-05 14:00:00 113.1  NaN    NaN
             2014-02-05 14:15:00 113.3  NaN    NaN
             2014-02-05 14:30:00 113.3  NaN    NaN
             2014-02-05 14:45:00 113.3  NaN    NaN
             2014-02-05 15:00:00 113.2  NaN    NaN
             2014-02-05 15:15:00 113.2  NaN    NaN
             2014-02-05 15:30:00 113.3  113.16 113.16
             2014-02-05 15:45:00 113.3  113.19 NaN
             2014-02-05 16:00:00 113.2  113.19 NaN
             2014-02-06 09:45:00 112.6  113.16 NaN
             2014-02-06 10:00:00 113.5  113.19 NaN
             2014-02-06 10:15:00 113.8  113.25 NaN
             2014-02-06 10:30:00 113.5  113.29 NaN
             2014-02-06 10:45:00 113.7  113.32 NaN
             2014-02-06 11:00:00 113.5  113.34 Nan

我知道pandas有pandas.stats.moments.ewma，但我更喜欢使用一本书中的公式，它需要“此刻”的收盘价和上一行的12ema。

所以，我尝试从2月5日15:45开始填充12ema列。我尝试使用apply()和一个函数，但shift给我报了错：

    def f12ema(x):
        K = 2 / (12 + 1)
        return x['price_nom'] * K + x['12ema'].shift(-1) * (1-K)

    df1.apply(f12ema, axis=1)

    AttributeError: ("'numpy.float64' object has no attribute 'shift'", u'occurred at index 2014-02-05 11:45:00')

我想到的另一个可能性是rolling_apply()，但这超出了我的知识范围。

数据处理时间序列滚动计算股票分析移动平均数据优化层次索引指数移动平均

Python pandas 时间序列与层次索引及滚动/移位

1 个回答

撰写回答