如何将使用自身输出滞后值的函数矢量化？

# Settings import numpy as np import pandas as pd import datetime # Data frame with input and desired output i column signal_d df = pd.DataFrame({'condition_A':list('00001100000110'), 'condition_B':list('01110011111000'), 'signal_d':list('00001111111110')}) colnames = list(df) df[colnames] = df[colnames].apply(pd.to_numeric) datelist = pd.date_range(pd.datetime.today().strftime('%Y-%m-%d'), periods=14).tolist() df['dates'] = datelist df = df.set_index(['dates']) # Solution using a for loop with nested ifs in column signal_l df['signal_l'] = df['condition_A'].copy(deep = True) i=0 for observations in df['signal_l']: if df.ix[i,'condition_A'] == 1: df.ix[i,'signal_l'] = 1 else: # Signal previously triggered by condition_A # AND kept "alive" by condition_B: if df.ix[i - 1,'signal_l'] & df.ix[i,'condition_B'] == 1: df.ix[i,'signal_l'] = 1 else: df.ix[i,'signal_l'] = 0 i = i + 1 # My attempt with np.where in column signal_v1 df['Signal_v1'] = df['condition_A'].copy() df['Signal_v1'] = np.where(df.condition_A == 1, 1, np.where( (df.shift(1).Signal_v1 == 1) & (df.condition_B == 1), 1, 0)) print(df)

1条回答

网友

1楼 · 发布于 2024-04-25 03:41:35

我不认为有一种方法可以比Python循环更快地将这个操作矢量化。（至少，如果你只想和Python、熊猫和纽比呆在一起的话，那就不会了。）

但是，可以通过简化代码来提高此操作的性能。您的实现使用if语句和大量的数据帧索引。这些都是相对昂贵的操作。在

下面是对脚本的修改，它包含两个函数：add_signal_l(df)和{}。第一个是你的代码，只是封装在一个函数中。第二种方法使用一个更简单的函数来实现同样的结果，它仍然是一个Python循环，但是它使用numpy数组和位运算符。在

import numpy as np
import pandas as pd
import datetime

#                                   -
# Create the test DataFrame

# Data frame with input and desired output i column signal_d
df = pd.DataFrame({'condition_A':list('00001100000110'),
                   'condition_B':list('01110011111000'),
                   'signal_d':list('00001111111110')})

colnames = list(df)
df[colnames] = df[colnames].apply(pd.to_numeric)
datelist = pd.date_range(pd.datetime.today().strftime('%Y-%m-%d'), periods=14).tolist()
df['dates'] = datelist
df = df.set_index(['dates']) 
#                                   -

def add_signal_l(df):
    # Solution using a for loop with nested ifs in column signal_l
    df['signal_l'] = df['condition_A'].copy(deep = True)
    i=0
    for observations in df['signal_l']:
        if df.ix[i,'condition_A'] == 1:
            df.ix[i,'signal_l'] = 1
        else:
            # Signal previously triggered by condition_A
            # AND kept "alive" by condition_B:                
            if df.ix[i - 1,'signal_l'] & df.ix[i,'condition_B'] == 1:
                 df.ix[i,'signal_l'] = 1
            else:
                df.ix[i,'signal_l'] = 0          
        i = i + 1

def compute_lagged_signal(a, b):
    x = np.empty_like(a)
    x[0] = a[0]
    for i in range(1, len(a)):
        x[i] = a[i] | (x[i-1] & b[i])
    return x

def add_lagged(df):
    df['lagged'] = compute_lagged_signal(df['condition_A'].values, df['condition_B'].values)

以下是在IPython会话中运行的两个函数的计时比较：

^{pr2}$

如您所见，add_lagged(df)要快得多。在

相关问题更多 >

编程相关推荐

热门问题

热门文章