如何使用正则表达式在pandas中查找字符串格式的数组？

2条回答

网友

1楼 · 编辑于 2024-05-13 09:32:24

如果只有“\u V”可以破坏精确匹配，为什么不去掉它并创建一个伪列索引呢？精确连接总是比任何正则表达式映射的孩子都要快。你知道吗

我的意思是：

df2["Col_B_edt"]=df2["Col_B"].str.replace("_V]", "]")

df3=pd.merge(df,df2,left_on="Col_A",right_on="Col_B_edt").drop("Col_B_edt", axis=1)

输出：

   Col_A          Col_B
0  [B00-OUI_001]  [B00-OUI_001_V]

网友

2楼 · 编辑于 2024-05-13 09:32:24

您可以删除两列中的尾部[]，并使用^{}和元组进行筛选：

tups = tuple(df1['Col_A'].str.strip('[]').unique())

df2 = df2[df2['Col_B'].str.strip('[]').str.startswith(tups)]
print (df2)
            Col_B
3  [B00OUI_001_V]

另一个想法是通过|为regex OR连接唯一值并使用^{}：

v = '|'.join(df1['Col_A'].str.strip('[]').unique())

df2 = df2[df2['Col_B'].str.strip('[]').str.contains(v)]
print (df2)
            Col_B
3  [B00OUI_001_V]

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何使用正则表达式在pandas中查找字符串格式的数组？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >