如何通过限制dataframe中的行大小来查找列和？

DP 1 DP 2 DP 3 DP 4 DP 5 DP 6 DP 7 DP 8 DP 9 DP 10 OP 1 357848 1124788 1735330 2218270 2745596 3319994 3466336 3606286 3833515 3901463 OP 2 352118 1236139 2170033 3353322 3799067 4120063 4647867 4914039 5339085 OP 3 290507 1292306 2218525 3235179 3985995 4132918 4628910 4909315 OP 4 310608 1418858 2195047 3757447 4029929 4381982 4588268 OP 5 443160 1136350 2128333 2897821 3402672 3873311 OP 6 396132 1333217 2180715 2985752 3691712 OP 7 440832 1288463 2419861 3483130 OP 8 359480 1421128 2864498 OP 9 376686 1363294 OP 10 344014

3条回答

网友

1楼 · 编辑于 2024-04-28 16:52:10

我认为在使用apply()时，可以利用列名中的信息

def sum_row(col):
    t = int(col.name.split(' ')[-1])
    return col.iloc[:-t].sum()

df_ = df.apply(sum_row)

# print(df_)

DP 1      3327371.0
DP 2     10251249.0
DP 3     15047844.0
DP 4     18447791.0
DP 5     17963259.0
DP 6     15954957.0
DP 7     12743113.0
DP 8      8520325.0
DP 9      3833515.0
DP 10           0.0
dtype: float64

网友

2楼 · 编辑于 2024-04-28 16:52:10

在这种情况下，您可以总结到倒数第二个last_valid_index()：

df.apply(lambda x: x.iloc[:df.index.get_loc(x.last_valid_index())].sum())

# DP 1      3327371.0
# DP 2     10251249.0
# DP 3     15047844.0
# DP 4     18447791.0
# DP 5     17963259.0
# DP 6     15954957.0
# DP 7     12743113.0
# DP 8      8520325.0
# DP 9      3833515.0
# DP 10           0.0

网友

3楼 · 编辑于 2024-04-28 16:52:10

假设您希望它符合您的预期输出，而不是您的描述，sum()在删除NA值然后跳过最后一个值后，每列：

df.apply(lambda col: col.dropna()[:-1].sum())

输出：

DP 1      3327371.0
DP 2     10251249.0
DP 3     15047844.0
DP 4     18447791.0
DP 5     17963259.0
DP 6     15954957.0
DP 7     12743113.0
DP 8      8520325.0
DP 9      3833515.0
DP 10           0.0

旁注：您的总和不是第10-1、10-2、10-3行等，而是第9-1、8-1、7-1行。即，跳过每列的最后一个非NA值，而不是最上面的行

Exdf['DP 1'].sum()是3671385，但跳过最后一行df['DP 1'][:-1].sum()是3327371，它与预期输出匹配。对于DP2：df['DP 2'].sum()是11614543，df['DP 2'].dropna()[:-1].sum()是10251249（您期望的val），但df['DP 2'][2:10].sum()是9253616

相关问题更多 >

编程相关推荐

热门问题

热门文章