向量化还是一种计算元组最长增长子序列的有效方法

import pandas as pd pd.DataFrame({ 'DTE': [1,1,1,1,1,1,2,2,2], 'Strike': [100,200,300,400,500,600,100,200,300], 'Bid': [10,16,17,11,12,13,10,15,16], 'Ask': [11,17,18,12,13,14,30,20,21], })

def modify_lsc_row(row, df, longest_lsc): lsc_predecessor_count = 0 lsc_predecessor_index = -1 df_predecessors = df[(df['Bid'] <= row.Bid) & (df['Ask'] <= row.Ask) & (df['lsc_count'] != -1)] if len(df_predecessors) > 0: df_predecessors = df_predecessors[(df_predecessors['lsc_count'] == df_predecessors['lsc_count'].max())] lsc_predecessor_index = df_predecessors.index.max() lsc_predecessor_count = df_predecessors.at[lsc_predecessor_index, 'lsc_count'] new_predecessor_count = lsc_predecessor_count + 1 df.at[row.name, 'lsc_count'] = new_predecessor_count df.at[row.name, 'prev_index'] = lsc_predecessor_index if new_predecessor_count >= longest_lsc.lsc_count: longest_lsc.lsc_count = new_predecessor_count longest_lsc.lsc_index = row.name def longest_increasing_bid_ask_subsequence(df): original_columns = df.columns df.sort_values(['Strike'], ascending=True, inplace=True) df.set_index(['Strike'], inplace=True) assert df.index.is_unique longest_lsc = LongestLsc() longest_lsc.lsc_index = df.index.max() longest_lsc.lsc_count = 1 df['lsc_count'] = -1 df.apply(lambda row: modify_lsc_row(row, df, longest_lsc), axis=1) while longest_lsc.lsc_index != -1: df.at[longest_lsc.lsc_index, 'keep'] = True longest_lsc.lsc_index = df.at[longest_lsc.lsc_index, 'prev_index'] df.dropna(inplace=True) return df.reset_index()[original_columns] df_groups = df.groupby(['DTE'], group_keys=False, as_index=False) df_groups.apply(longest_increasing_bid_ask_subsequence)

@njit def set_list_indices(bids, asks, indices, indices_to_keep): entries = len(indices) lis_count = np.full(entries, 0) prev_index = np.full(entries, -1) longest_lis_count = -1 longest_lis_index = -1 for i in range(entries): predecessor_counts = np.where((bids <= bids[i]) & (asks <= asks[i]), lis_count, 0) best_predecessor_index = len(predecessor_counts) - np.argmax(predecessor_counts[::-1]) - 1 if best_predecessor_index < i: prev_index[i] = best_predecessor_index new_count = predecessor_counts[best_predecessor_index] + 1 lis_count[i] = new_count if new_count >= longest_lis_count: longest_lis_count = new_count longest_lis_index = i while longest_lis_index != -1: indices_to_keep[indices[longest_lis_index]] = True longest_lis_index = prev_index[longest_lis_index] # necessary for lis algo, and groupby will preserve the order df = df.sort_values(['Strike'], ascending=True) # necessary for rows that were dropped. need reindexing for lis algo df = df.reset_index(drop=True) df_groups = df.groupby(['DTE']) row_indices_to_keep = np.full(len(df.index), False, dtype=bool) for name, group in df_groups: bids = group['Bid'].to_numpy() asks = group['Ask'].to_numpy() indices = group.index.to_numpy() set_list_indices(bids, asks, indices, row_indices_to_keep) df = df.iloc[row_indices_to_keep]

1条回答

网友

1楼 · 发布于 2024-05-16 21:32:49

查找最长递增子序列的算法复杂度是多少

This article提供了一个复杂度为O（n logn）的算法。 Upd：不工作。 ~~您甚至不需要修改代码，因为在python中，比较适用于元组：assert (1, 2) < (3, 4)~~

>>> seq=[(10, 11), (16, 17), (17, 18), (11, 12), (12, 13), (13, 14)]
>>> subsequence(seq)
[(10, 11), (11, 12), (12, 13), (13, 14)]

Since each row must refer to the previous rows to have already computed the longest increasing subsequence at that point, it seems you cannot do this in parallel?

是的，但是您可以为每个DTE并行计算序列。您可以尝试类似于pandarallel的方法在.groupby()之后进行并行聚合

from pandarallel import pandarallel
pandarallel.initialize()

# just an example of usage:
df.groupby("DTE").parallel_apply(subsequence)

还可以尝试摆脱pandas（速度非常慢），使用原始numpy数组和python结构。您可以使用O（n^2）算法计算LIS索引，然后使用df.iloc选择所需的行

相关问题更多 >

编程相关推荐

热门问题

热门文章