Pandas：如果包含字符串，则更新列B值

网友

1楼 · 编辑于 2024-05-20 00:38:32

@U-12-Forward有一个很好的解决方案，如果只假设有一个新列的标题是字符串'dept'，而不是循环中每个dept变量的值

如果目的是为depts中的每个dept创建一个新列，则删除列索引器中“dept”周围的引号：

for dept in depts:
    df[dept] = np.where(df.a.str.contains(dept), dept, "Unknown")

该示例令人困惑，因为由于变量名的原因，不清楚每个dept（即PHYS，PSYCH）是否应该有一个新列

这段摘录不会“起作用”，因为它会用“PSYCH”和“Unknown”（没有“PHYS”）的组合来覆盖第二个作业的df['dept']

df['dept'] = np.where(df.a.str.contains("PHYS"), "PHYS", "Unknown")
df['dept'] = np.where(df.a.str.contains("PSYCH"), "PSYCH", "Unknown")

如果列a中没有包含depts中最后一个元素的字符串，那么您所描述的肯定会发生，因为最后一个np.where的结果将是所有False，因此返回完整的“未知”序列

网友

2楼 · 编辑于 2024-05-20 00:38:32

我更喜欢str.extract：

df['depth'] = df['a'].str.extract(f"({'|'.join(depts)})").fillna("Unknown")

或：

df['depth'] = df['a'].str.extract('(' + '|'.join(depts) + ')').fillna("Unknown")

两个代码都输出：

>>> df
           a    depth
0  ewfefPHYS     PHYS
1  QWQiPSYCH    PSYCH
2      fwfew  Unknown
>>>

网友

3楼 · 编辑于 2024-05-20 00:38:32

我们通常这样做

df['dept'] = df.a.str.findall('|'.join(depts)).str[0]