Pandas作业跳绳的有效方法

import pandas as pd import numpy as np df_source = pd.DataFrame(np.random.normal(0,.05,10), index=range(10), columns=['A']) df_target = pd.DataFrame(index = df_source.index) df_target.loc[0,"A"] = 1000 # initialize target array to start at 1000 df_target["A"] = (1 + df_source) * df_target["A"].shift(1) # How to skip first row?

2条回答

网友

1楼 · 编辑于 2024-05-13 23:19:48

我想我理解您的问题，在这些情况下，我通常会发现制作一个列表并将其附加到现有的数据帧更容易。当然，您可以先创建一个序列实例，然后进行计算。

new_series = [0]*len(df["A"])                 
new_series[0] = 1000                           

for i,k in enumerate(dataframe["A"].ix[1:]):   
    new_series[i] = (1 + k)*new_series[i-1]    

dataframe["B"] = pd.Series(new_series)

IIRC，iloc在熊猫的未来构建中被弃用，取而代之的是ix

重新考虑问题后，可以在数据帧中使用lambda表达式作为元素

dataframe["B"] = [lambda row: (1 + dataframe["A"].ix[row])*dataframe["B"].ix[row-1]*len(dataframe["A"])
# Above: initiate "B" with a lambda expression that is as long as "A"

dataframe["B"].ix[0] = 1000
for i,k in enumerate(dataframe["B"].ix[1]):
    dataframe["B"].ix[i] = k(row=i)

我正试图想办法使用for循环来解决这个问题，但无法找到从何处获取行号的方法。

希望这有帮助。

网友

2楼 · 编辑于 2024-05-13 23:19:48

IIUC您可以跳过df_source列A的第一行，方法是选择所有行而不首先选择^{}：

df_target["A"].ix[1:] = df_source['A'].ix[1:] + 1
print df_target
             A
0  1000.000000
1     0.988898
2     0.986142
3     1.009979
4     1.005165
5     1.101116
6     0.992312
7     0.962890
8     1.051340
9     1.009750

或者你认为：

import pandas as pd
import numpy as np

df_source = pd.DataFrame(np.random.normal(0,.05,10), index=range(10), columns=['A'])
print df_source
          A
0  0.039965
1  0.060821
2 -0.079238
3 -0.129932
4  0.002196
5 -0.003721
6 -0.008358
7  0.014104
8 -0.022905
9  0.014793

df_target = pd.DataFrame(index = df_source.index) 
#all A set to 1000
df_target["A"] = 1000 # initialize target array to start at 1000
print df_target
      A
0  1000
1  1000
2  1000
3  1000
4  1000
5  1000
6  1000
7  1000
8  1000
9  1000

df_target["A"] = (1 + df_source["A"].shift(-1))* df_target["A"]
print df_target
             A
0  1060.820882
1   920.761946
2   870.067878
3  1002.195555
4   996.279287
5   991.641909
6  1014.104402
7   977.094961
8  1014.793488
9          NaN

编辑：

也许你需要^{}：

df_target["B"]  = 2
df_target["C"] = df_target["B"].cumsum()

df_target["D"] = df_target["B"] + df_target.index
print df_target
             A  B   C   D
0  1041.003000  2   2   2
1  1013.817000  2   4   3
2   948.853000  2   6   4
3  1031.692000  2   8   5
4   970.875000  2  10   6
5  1011.095000  2  12   7
6  1053.472000  2  14   8
7   903.765000  2  16   9
8  1010.546000  2  18  10
9     0.010546  2  20  11

相关问题更多 >

编程相关推荐

热门问题

热门文章