如何在为新列指定新值时，基于起始值和结束值列表循环索引

Items Item 1 Item 2 Item 3 Item 4 Item 5 . . . Item 16 Item 17 Item 18 Item 19 Item 20 Item 21 Item 22

Items New Column Item 1 Dog Item 2 Dog Item 3 Dog Item 4 Dog Item 5 Dog . . . Item 16 Rabbit Item 17 Rabbit Item 18 Rabbit Item 19 Rabbit Item 20 Bat Item 21 Bat Item 22 Bat

2条回答

网友

1楼 · 编辑于 2024-04-25 18:48:35

在criteria数据框上，创建一列，其中每个单元格都是一个大小为end - start的列表（列表的内容无关紧要）。然后explode数据帧并将（现在已分解的）类别列分配给第二个数据帧

criteria_df['count'] = criteria_df['Start'].combine(criteria_df['End'], lambda x,y: list(range(x,y + 1)))
criteria_df = criteria_df.explode('count')
second_df['New Column'] = criteria_df['Category']

或者如果你不喜欢lambda：

def generate_list(start_index, end_index):
    return list(range(start_index, end_index + 1))

criteria_df['count'] = criteria_df['Start'].combine(criteria_df['End'], generate_list)
criteria_df = criteria_df.explode('count')
second_df['New Column'] = criteria_df['Category']

这种方法假设您的范围已排序，并且范围之间没有间隙

网友

2楼 · 编辑于 2024-04-25 18:48:35

解决问题的一种方法是将新值应用于New Column，同时在每行值的Start和End所创建的范围内过滤第一个数据帧，如以下示例所示：

import pandas as pd


def assign_value(row, df):
    index = int(row['Items'].replace('Item ', ''))
    # Check if index is in the df start ranges
    _df = df.loc[[index in elm for elm in df['Range'].values]]
    if not _df.empty:
        return _df.iloc[0]['Category']
    return None


start_rows = [(1, 15, 'Dog'), (16, 19, 'Rabbit'), (20, 23, 'Bat')]
df_start = pd.DataFrame(start_rows, columns=['Start', 'End', 'Category'])
# Create a new column with a range from start to end + 1
df_start['Range'] = df_start.apply(lambda row: range(row['Start'], row['End'] + 1), axis=1)
df = pd.DataFrame([f'Item {elm}' for elm in range(1, 23)], columns=['Items'])
df['New Column'] = df.apply(lambda row: assign_value(row, df_start), axis=1)
print(df)

输出：

      Items New Column
0    Item 1        Dog
1    Item 2        Dog
2    Item 3        Dog
3    Item 4        Dog
4    Item 5        Dog
5    Item 6        Dog
6    Item 7        Dog
7    Item 8        Dog
8    Item 9        Dog
9   Item 10        Dog
10  Item 11        Dog
11  Item 12        Dog
12  Item 13        Dog
13  Item 14        Dog
14  Item 15        Dog
15  Item 16     Rabbit
16  Item 17     Rabbit
17  Item 18     Rabbit
18  Item 19     Rabbit
19  Item 20        Bat
20  Item 21        Bat
21  Item 22        Bat

或者您可以简单地（如果您的起始数据帧很小）使用此分配功能：

def assign_value(row, df):
    for _, elm in df.iterrows():
        index = int(row['Items'].replace('Item ', ''))
        if index in range(elm['Start'], elm['End'] + 1):
            return elm['Category']
    return None

相关问题更多 >

编程相关推荐

热门问题

热门文章