我在学习熊猫,有一个字符串的数据帧,看起来有点像:
df = pd.DataFrame([['Apple', 'Med6g7867'], ['Orange', 'Med7g8976'], ['Banana', 'Signal'], ['Peach', 'Med8g8989'], ['Mango', 'Possible result %gggyy']], columns=['A', 'B'])
df
A B
0 Apple Med6g7867
1 Orange Med7g8976
2 Banana Signal
3 Peach Med8g8989
4 Mango Possible result %gggyy
注:B列有两种类型的值,一种是MedXgXXXX格式的唯一标识符,另一种是描述性字符串。我想做两件相关的事情。
我想要这样的桌子:
^{pr2}$目前,我可以将表子集如下:
df[df['B'].str.contains("Med")]
df[df['B'].str.contains("%")]
{cd1>的实现不允许我这样做。
感谢任何帮助。
收益率
^{pr2}$regex模式具有以下含义:
如果
B
列中的值以表单的唯一标识符开头MedXgXXXX
然后将匹配非捕获组。自从str.extract
只返回捕获组的值,返回的Series
str.extract
在此位置将有一个NaN
。在如果捕获组匹配,则
str.extract
将返回 匹配值。在可以按如下方式应用“替换”两次:
相关问题 更多 >
编程相关推荐