利用numpy广播/矢量化技术从其他阵列构建新的阵列

def GainPctInd(offset=0, nbars=2): class GainPctIndFact(CustomFactor): window_length = nbars + offset inputs = [USEquityPricing.close, ms.asset_classification.morningstar_industry_code] def compute(self, today, assets, out, close, industries): # Compute the gain percents for all stocks asset_gainpct = (close[-1] - close[offset]) / close[offset] * 100 # For each industry, build a list of the per-stock gains over the given window gains_by_industry = {} for i in range(0, len(industries)): industry = industries[0,i] if industry in gains_by_industry: gains_by_industry[industry].append(asset_gainpct[i]) else: gains_by_industry[industry] = [asset_gainpct[i]] # Loop through each stock's industry and compute a mean value for that # industry (caching it for reuse) and return that industry mean for # that stock mean_cache = {} for i in range(0, len(industries)): industry = industries[0,i] if not industry in mean_cache: mean_cache[industry] = np.mean(gains_by_industry[industry]) out[i] = mean_cache[industry] return GainPctIndFact()

# For each industry, build a list of the per-stock gains over the given window unique_ind = np.unique(industries[0,]) for industry in unique_ind: masked = ma.masked_where(industries[0,] != industry, asset_gainpct) mean = np.full_like(masked, np.nanmean(masked), dtype=np.float64, subok=False) np.copyto(out, mean, where=masked)

def GainPctInd(offset=0, nbars=2): class GainPctIndFact(CustomFactor): window_length = nbars + offset inputs = [USEquityPricing.close, ms.asset_classification.morningstar_industry_code] def compute(self, today, assets, out, close, industries): num_bars, num_assets = close.shape newest_bar_idx = (num_bars - 1) - offset oldest_bar_idx = newest_bar_idx - (nbars - 1) # Compute the gain percents for all stocks asset_gainpct = ((close[newest_bar_idx] - close[oldest_bar_idx]) / close[oldest_bar_idx]) * 100 # For each industry, build a list of the per-stock gains over the given window unique_ind = np.unique(industries[0,]) for industry in unique_ind: ind_view = asset_gainpct[industries[0,] == industry] ind_mean = np.nanmean(ind_view) out[industries[0,] == industry] = ind_mean return GainPctIndFact()

def GainPctInd2(offset=0, nbars=2): class GainPctIndFact2(CustomFactor): window_length = nbars + offset inputs = [USEquityPricing.close, ms.asset_classification.morningstar_industry_code] def compute(self, today, assets, out, close, industries): df = pd.DataFrame(index=assets, data={ "gain": ((close[-1 - offset] / close[(-1 - offset) - (nbars - 1)]) - 1) * 100, "industry_codes": industries[-1] }) out[:] = df.groupby("industry_codes").transform(np.mean).values.flatten() return GainPctIndFact2()

def GainPctInd2(offset=0, nbars=2): class GainPctIndFact2(CustomFactor): window_length = nbars + offset inputs = [USEquityPricing.close, ms.asset_classification.morningstar_industry_code] def compute(self, today, assets, out, close, industries): df = pd.DataFrame(index=assets, data={ "gain": ((close[-1 - offset] / close[(-1 - offset) - (nbars - 1)]) - 1) * 100, "industry_codes": industries[-1] }) nans = isnan(df['industry_codes']) notnan = ~nans out[notnan] = df[df['industry_codes'].notnull()].groupby("industry_codes").transform(np.nanmean).values.flatten() out[nans] = nan return GainPctIndFact2()

1条回答

网友

1楼 · 发布于 2024-05-13 02:24:59

有人给了我一个更简洁的方法来完成这一点，最终消除了额外的FOR循环。它基本上将循环隐藏在Pandas DataFrame groupby中，但它更简洁地描述了所需的步骤：

def GainPctInd2(offset=0, nbars=2):
    class GainPctIndFact2(CustomFactor):
        window_length = nbars + offset
        inputs = [USEquityPricing.close, ms.asset_classification.morningstar_industry_code]
        def compute(self, today, assets, out, close, industries):
            df = pd.DataFrame(index=assets, data={
                    "gain": ((close[-1 - offset] / close[(-1 - offset) - (nbars - 1)]) - 1) * 100,
                    "industry_codes": industries[-1]
                 })
            out[:] = df.groupby("industry_codes").transform(np.mean).values.flatten()
    return GainPctIndFact2()

根据我的基准测试，它根本没有提高效率，但可能更容易验证正确性。他们的例子的一个问题是，它使用np.mean而不是np.nanmean，并且np.nanmean如果您试图使用它，则会删除导致形状不匹配的NaN值。为了解决NaN问题，其他人建议：

^{pr2}$

–用户36048

相关问题更多 >

编程相关推荐

热门问题

热门文章