如何构建一个函数来基于包含特定字符串的其他列创建一个新列？

# Function def label_race (row): if row['Nationality'] contains'Br': return 'Brasil' if row['Nationality'] contains'Brl': return 'Brasil2' else: return 'NA' df.apply (lambda row: label_race(row), axis=1)

2条回答

网友
1楼 · 编辑于 2024-04-20 13:24:50

IIUC，你可以用str.extract和dot：
df = pd.DataFrame({'Nationality': ['Brazil', 'abBrl', 'abcd', 'BrX']}) new_df = df.Nationality.str.extract('(?P<Brazil2>Brl)|(?P<Brazil>Br)') new_df.notnull().dot(new_df.columns)
输出：
0 Brazil 1 Brazil2 2 3 Brazil dtype: object

网友
2楼 · 编辑于 2024-04-20 13:24:50

如果您想创建一个具有二进制值的新列（如果条件满足，那么a或者B），您可以这样做
#create a column 'new' with value 'Brasil' if 'Nationality' value contains 'Bra', else put 'NA' df['new'] = df['Nationality'].apply(lambda x: 'Brasil' if 'Bra' in x else 'NA')
否则，如果您想创建一个列并在同一列中使用多个规则，您可以这样做
#create a column 'new' and insert value 'ARG' whenever 'Nationality' contains 'Arg', df.loc[df['Nationality'].str.contains('Arg'), 'new'] = 'ARG' #and 'BRA' whenever Nationality contains 'Brazil', without overriding any other values df.loc[df['Nationality'].str.contains('Brazil'), 'new'] = 'BRA'

相关问题更多 >

编程相关推荐

热门问题

热门文章