如何在空格、特殊字符前后提取字符串？

def remove_strings(df, col): for i in df.index: x = df.at[i, col] x = x.split(' ') if len(x) > 1: if len(x[1]) > 2: x[1] = ''.join(e for e in x[1] if e.isalnum()) x = ' '.join(x[0:2]) df.at[i, col] = x else: df.at[i, col] = x[0] else: df.at[i, col] = df.at[i, col] #calling my function remove_strings(df=trial_df, col='Names')

2条回答

网友

1楼 · 编辑于 2024-09-21 00:19:32

 df.Names.replace(regex=r'^(\w+)(\s[A-Z-]{2,})?.*',value=r'\1\2')
Out[186]: 
0                   GHAITHA
1         ASEEL ELECTRONICS
2    SUNRISE SUPERMARKET-QU
3                    EMARAT
4               LULU CENTRE
5                       MAX
6                    THEMAX
7                  THE LULU
8                   GHAITHA
9                   SUNRISE
Name: Names, dtype: object

网友

2楼 · 编辑于 2024-09-21 00:19:32

我们可能希望在这里设计的表达方式相当复杂。也许，最好将任务分解，然后设计更简单的表达式。例如，THE LULU在我们通过regex引擎运行它之前，可以简单地排除这种情况。你知道吗

我对表达式的部分尝试是：

^([A-Z\s]{3,}?)(&.+|\s[A-Z]{1}$|-.+|\s[A-Z]{3}\s.+|\s[0-9].+|\s[~!@#$%^&*]+.+)$

但是，我敢肯定，它不会在其他一些输入，我们可能已经和这里没有列出的工作。你知道吗

DEMO

这个想法有三个步骤：

我们把那些很容易找到/过滤掉的，比如“露露”
我们添加了一个具有最多边界的捕获组^([A-Z\s]{3,}?)
我们添加另一组子表达式，这些子表达式与逻辑OR相连接，并在字符串的末尾过滤出我们想要的内容。你知道吗

DEMO

相关问题更多 >

编程相关推荐

热门问题

热门文章