正常化时加速循环

| col1 | Parent | |--------------------- |heading1| heading1 | |abc | heading1 | |efg | heading1 | |hij | heading1 | |heading2| heading2 | |klm | heading2 | |... | headingN |

3条回答

网友

1楼 · 编辑于 2024-04-28 08:42:39

可能不是一个非常惯用的解决方案，但是您可以cumsum逻辑列并使用它来获取每行的相应标题。本质上，我们定义的是一个分段常量索引数组，它只对原始heading列上的每个True值递增。你知道吗

import pandas as pd

# set up some dummy data
df = pd.DataFrame({'heading': [True, False, False, False, True, False, False]},
                  index=['heading1', 'foo', 'bar', 'baz', 'heading2', 'quux', 'quuz'])

# get every 'heading' index
headings = df.index[df.heading]
# fetch which row corresponds to which 'heading'
indices = df.heading.cumsum() - 1
# fetch the actual headings for each row
df['parent'] = headings[indices]

print(df)

以上代码的输出是

          heading    parent
heading1     True  heading1
foo         False  heading1
bar         False  heading1
baz         False  heading1
heading2     True  heading2
quux        False  heading2
quuz        False  heading2

从中可以drop不必要的heading列。当然，您可以直接获取您拥有的逻辑阵列并使用它：

headline = df.index.str.startswith('heading') # bool Series
headings = df.index[headline]
indices = df.heading.cumsum() - 1
df['parent'] = headings[indices]

网友

2楼 · 编辑于 2024-04-28 08:42:39

我也想到了一件事。通过使用数据框弹出（）我们要确保列也消失了。你知道吗

df['Parent'] = df['col1'].mul(df.pop('heading')).replace('',np.nan).ffill()

完整示例

import pandas as pd
import numpy as np

df = pd.DataFrame({
    'col1': ['heading1', 'abc', 'efg', 'hij', 'heading2', 'klm'],
    'heading': [True, False, False, False, True, False]
})

df['Parent'] = df['col1'].mul(df.pop('heading')).replace('',np.nan).ffill()
print(df)

退货：

       col1    Parent
0  heading1  heading1
1       abc  heading1
2       efg  heading1
3       hij  heading1
4  heading2  heading2
5       klm  heading2

网友

3楼 · 编辑于 2024-04-28 08:42:39

可以将mask与ffill一起使用：

df.assign(heading=df.col1.mask(~df.col1.str.startswith('heading')).ffill())

       col1   heading
0  heading1  heading1
1       abc  heading1
2       efg  heading1
3       hij  heading1
4  heading2  heading2
5       klm  heading2

其工作原理是将任何不以heading开头的值替换为NaN，然后向前填充最后一个非nan值：

df.col1.mask(~df.col1.str.startswith('heading'))

0    heading1
1         NaN
2         NaN
3         NaN
4    heading2
5         NaN
Name: col1, dtype: object

df.col1.mask(~df.col1.str.startswith('heading')).ffill()

0    heading1
1    heading1
2    heading1
3    heading1
4    heading2
5    heading2
Name: col1, dtype: object

相关问题更多 >

编程相关推荐

热门问题

热门文章