使用Pandas数据框中同一列的先前计算值和另一列的值计算值

perf pct_change date 2018-05-31 NaN 100.0 2018-06-01 0.012923 NaN 2018-06-02 0.039364 NaN 2018-06-03 0.042805 NaN 2018-06-04 -0.033214 NaN

perf pct_change date 2018-05-31 NaN 100.0 2018-06-01 0.012923 101.2923 2018-06-02 0.039364 105.2795701 2018-06-03 0.042805 109.7860621 2018-06-04 -0.033214 106.1396278

# INCOMPLETE/DOES NOT WORK (adding for illustration purposes only) for index, row in performance.iterrows(): curr = performance.loc[index, 'perf'] pidx = index + pd.DateOffset(-1) prev = performance.iloc[[pidx], 'pct_change'] performance.loc[index, 'pct_change'] = prev * ( 1 + curr )

perf pct_change date 2018-05-31 NaN NaN 2018-06-01 0.012923 101.292251 2018-06-02 0.039364 NaN 2018-06-03 0.042805 NaN 2018-06-04 -0.033214 NaN

2条回答

网友

1楼 · 编辑于 2024-05-16 04:09:42

使用^{}：

df['pct_change'] = (df['perf']+1).cumprod() * 100

实现您真正想要的：

pct_change_0 = (perf_0 + 1) * 100
pct_change_1 = pct_change_0 * (perf_1 + 1) = (perf_0 + 1) * (perf_1 + 1) *  100
pct_change_2 = pct_change_1 * (perf_2 + 1) = (perf_0 + 1) * (perf_1 + 1) * (perf_2 + 1) * 100
...

因此，您实际上是在计算perf值（或者更准确地说perf + 1值）的累积乘积

网友

2楼 · 编辑于 2024-05-16 04:09:42

像这样：

dates = ['2018-06-01', '2018-06-02', '2018-06-03', '2018-06-04', '2018-06-05']
import datetime as dt
dates = [pd.datetime.date(dt.datetime.strptime(x, "%Y-%m-%d")) for x in dates]
perfs = [0.012923, 0.039364, 0.042805, -0.033214, -0.021745]
df = pd.DataFrame({'perf': perfs}, index=dates)

# The important bit:
df['pct_change'] = ((df['perf'] + 1).cumprod() * 100)

df
#                 perf  pct_change
# 2018-06-01  0.012923  101.292300
# 2018-06-02  0.039364  105.279570
# 2018-06-03  0.042805  109.786062
# 2018-06-04 -0.033214  106.139628
# 2018-06-05 -0.021745  103.831622

相关问题更多 >

编程相关推荐

热门问题

热门文章