通过在中添加匹配的单元格内容来创建新列

Species COL1 COL2 COL3 COL4 COL5 SPf_1 4 f_G1 None None None SP1 9 -_Haploviric -_unclassified f_G3 None SP1 36 k_Orthorn f_G7 None None SP2 90 k_Orthorn f_G3 p_Pisuvi None SP3 32 None None None f_83 SP3 2 -_Ribovi Cattus None None SP4 89 None None None None

Species COL1 COL2 COL3 COL4 COL5 F_COL SPf_1 4 f_G1 None None None f_G1 SP1 9 -_Haploviric -_unclassified f_G3 None f_G3 SP1 36 k_Orthorn f_G7 None None f_G7 SP2 90 k_Orthorn f_G3 p_Pisuvi None f_G3 SP3 32 None None None f_83 f_83 SP3 2 -_Ribovi Cattus None None NA SP4 89 None None None None NA

{'Species': {0: 'SPf_1', 1: 'SP1', 2: 'SP1', 3: 'SP2', 4: 'SP3', 5: 'SP3', 6: 'SP4'}, 'COL1': {0: 4, 1: 9, 2: 36, 3: 90, 4: 32, 5: 2, 6: 89}, 'COL2': {0: 'f_G1', 1: '-_Haploviric-', 2: 'k_Orthorn', 3: 'k_Orthorn', 4: 'None', 5: '-_Ribovi', 6: 'None'}, 'COL3': {0: 'None', 1: '_unclassified', 2: 'f_G7', 3: 'f_G3', 4: 'None', 5: 'Cattus', 6: 'None'}, 'COL4': {0: 'None', 1: 'f_G3', 2: 'None', 3: 'p_Pisuvi', 4: 'None', 5: 'None', 6: 'None'}, 'COL5': {0: 'None', 1: 'None', 2: 'None', 3: 'None', 4: 'f_83', 5: 'None', 6: 'None'}}

2条回答

网友

1楼 · 编辑于 2024-06-17 08:41:21

import re

def get_f_pattern(row):
    for value in row.values:
        if isinstance(value, str) and re.match(r'f_\w{2}', value):
            return value
    return 'NA'

df['F_COL'] = df.apply(get_f_pattern, axis=1)

df
  Species  COL1           COL2           COL3      COL4  COL5 F_COL
0   SPf_1     4           f_G1           None      None  None  f_G1
1     SP1     9  -_Haploviric-  _unclassified      f_G3  None  f_G3
2     SP1    36      k_Orthorn           f_G7      None  None  f_G7
3     SP2    90      k_Orthorn           f_G3  p_Pisuvi  None  f_G3
4     SP3    32           None           None      None  f_83  f_83
5     SP3     2       -_Ribovi         Cattus      None  None    NA
6     SP4    89           None           None      None  None    NA

这将创建一个函数，该函数给定一行，运行其所有值并返回其匹配的第一个f_模式，否则为“NA”
然后我们用axis=1运行.apply，告诉pandas在所有行上应用这个函数，并将结果分配给F_COL

网友

2楼 · 编辑于 2024-06-17 08:41:21

让我们filter和stack从COL1到COL5的列，然后extract在level=0上的f_pattern字符串后跟groupby+{}

df.filter(regex='COL[1-5]').stack()\
  .str.extract(r'^(f_.*)', expand=False).groupby(level=0).first()

0    f_G1
1    f_G3
2    f_G7
3    f_G3
4    f_83
5    None
6    None
dtype: object

相关问题更多 >

编程相关推荐

热门问题

热门文章