如何迭代地向数据帧中的许多行添加随机值?

2024-04-26 03:04:54 发布

您现在位置:Python中文网/ 问答频道 /正文

假设我有一个名为df的Pandas数据帧,它有以下内容结构:-你知道吗

          Column 1 Column 2 ......... Column 104
Row 1      0.01     0.55                 3
Row 2      0.03     0.14                 1
...                       
Row 100    0.75    0.56                  0

我试图实现的是,对于所有符合下面给出的条件的行,我需要生成更多的行,每个行添加一个介于00.05之间的随机值世界其他地区:-你知道吗

is_less = df.iloc[:,-1] > 1
df_try = df[is_less]
df = df.append([df_try]*100,ignore_index=True)

问题是,我可以简单地复制df_try中的行,为每种情况生成100更多的行,但是我也想为每一行添加一个随机值,这样每一行都不同于其他行,但非常相似。你知道吗

import random
df = df.append([df_try + random.uniform(0,0.05)]*100, ignore_index=True)

这样做只是简单地将固定的随机值添加到df_try100新行中,而不是将唯一的随机值添加到每一行中。我知道这是因为上面的语法没有迭代dfètry,导致添加固定的随机值,但是在这种情况下,有没有合适的方法在数据帧上迭代添加随机值?你知道吗


Tags: 数据truepandasdfindexis情况column
2条回答

一个想法是创建与新附加的DataFrame大小相同的二维数组,并使用^{}添加到联接列表:

N = 10
arr = np.random.uniform(0,0.05, size=(N, len(df.columns)))
is_less = df.iloc[:,-1] > 1
df_try = df[is_less]
df = df.append(pd.concat([df_try]*N) + arr,ignore_index=True)
print (df)
    Column 1  Column 2  Column 104
0   0.010000  0.550000    3.000000
1   0.030000  0.140000    1.000000
2   0.750000  0.560000    0.000000
3   0.024738  0.561647    3.045146
4   0.035315  0.584161    3.008656
5   0.022386  0.563025    3.033091
6   0.039175  0.588785    3.004649
7   0.049465  0.594903    3.003303
8   0.027366  0.580478    3.041745
9   0.044721  0.599853    3.001736
10  0.052849  0.589775    3.042434
11  0.033957  0.582610    3.045215
12  0.044349  0.582218    3.027665

如果需要向每个df_try添加标量,则应通过列表理解更改您的解决方案:

N = 10

is_less = df.iloc[:,-1] > 1
df_try = df[is_less]
df = df.append( [df_try + random.uniform(0, 0.05) for _ in range(N)], ignore_index=True)
print (df)
    Column 1  Column 2  Column 104
0   0.010000  0.550000    3.000000
1   0.030000  0.140000    1.000000
2   0.750000  0.560000    0.000000
3   0.036756  0.576756    3.026756
4   0.039357  0.579357    3.029357
5   0.048746  0.588746    3.038746
6   0.040197  0.580197    3.030197
7   0.011045  0.551045    3.001045
8   0.013942  0.553942    3.003942
9   0.054658  0.594658    3.044658
10  0.025909  0.565909    3.015909
11  0.012093  0.552093    3.002093
12  0.058463  0.598463    3.048463

您可以先合并副本,然后创建一个包含所有随机值的数组,将它们相加,然后将结果附加到原始值:

import numpy as np

n_copies = 2

df = pd.DataFrame(np.c_[np.arange(6), np.random.randint(1, 3, size=6)])
subset = df[df.iloc[:, -1] > 1]
extra = pd.concat([subset] * n_copies).add(np.random.uniform(0, 0.05, len(subset) * n_copies), axis='rows')

result = df.append(extra, ignore_index=True)

print(result)

输出:

           0         1
0   0.000000  2.000000
1   1.000000  2.000000
2   2.000000  1.000000
3   3.000000  2.000000
4   4.000000  1.000000
5   5.000000  2.000000
6   0.007723  2.007723
7   1.005718  2.005718
8   3.003063  2.003063
9   5.005238  2.005238
10  0.006509  2.006509
11  1.034742  2.034742
12  3.022345  2.022345
13  5.040911  2.040911

相关问题 更多 >