Python相当于R的grepl和dplyr过滤器

library(dplyr) df <- data.frame(Countries=c('Brazil','Venezuela','Brazil, Colombia, Paraguay','Argentina','Peru','Andorra,Argentina,Chile,Uruguay'), Code=c(1,2,3,4,5,6)) df %>% filter(grepl('(Brazil|Argentina)',Countries))

import pandas as pd df = pd.DataFrame(dict(Countries=['Brazil','Venezuela','Brazil, Colombia, Paraguay','Argentina','Peru','Andorra,Argentina,Chile,Uruguay'], Code=[1,2,3,4,5,6])) list_=['Brazil','Argentina'] print(df.loc[df['Countries'].isin(list_)])

1条回答

网友

1楼 · 发布于 2024-05-15 20:59:01

似乎您正在寻找带有对象dtype的.str扩展pd.Series（基本上您可以调用pd.Series.str....来获取专门用于处理正则表达式和其他基于string的操作的pandas函数子集，但是这仅在数组为数据类型“object”时才有效

mask = df["Countries"].str.contains("Brazil|Argentina")
subset = df.loc[mask]

print(subset)
                         Countries  Code
0                           Brazil     1
2       Brazil, Colombia, Paraguay     3
3                        Argentina     4
5  Andorra,Argentina,Chile,Uruguay     6

一种简洁的方法是使用list_变量上的.join函数将其连接到一个字符串中，该字符串可由正则表达式匹配模式使用

list_=['Brazil','Argentina']
pattern = "|".join(list_) # Now we have "Brazil|Argentina" as a string

mask = df["Countries"].str.contains(pattern)
subset = df.loc[mask] # Same subset as the previous example

参见文档中除.str.contains之外的文档和其他方法 https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.html

相关问题更多 >

编程相关推荐

热门问题

热门文章