如何使用正则表达式从pandas dataframe中提取特定内容?

2024-04-28 09:35:41 发布

您现在位置:Python中文网/ 问答频道 /正文

考虑以下pandas数据框:

In [114]:

df['movie_title'].head()

​
Out[114]:

0     Toy Story (1995)
1     GoldenEye (1995)
2    Four Rooms (1995)
3    Get Shorty (1995)
4       Copycat (1995)
...
Name: movie_title, dtype: object

更新: 我想用正则表达式提取电影的标题。所以,让我们使用以下正则表达式:\b([^\d\W]+)\b。所以我尝试了以下几点:

df_3['movie_title'] = df_3['movie_title'].str.extract('\b([^\d\W]+)\b')
df_3['movie_title']

但是,我得到了以下信息:

0       NaN
1       NaN
2       NaN
3       NaN
4       NaN
5       NaN
6       NaN
7       NaN
8       NaN

你知道如何从pandas数据框的文本中提取特定特征吗?。更具体地说,如何在一个全新的数据帧中提取电影的标题?。例如,所需的输出应为:

Out[114]:

0     Toy Story
1     GoldenEye
2    Four Rooms
3    Get Shorty
4       Copycat
...
Name: movie_title, dtype: object

Tags: 数据pandasdfgettitlenanmovieout
2条回答

您应该像下面这样用()分配文本组来捕获它的特定部分。

new_df['just_movie_titles'] = df['movie_title'].str.extract('(.+?) \(')
new_df['just_movie_titles']

pandas.core.strings.StringMethods.extract

StringMethods.extract(pat, flags=0, **kwargs)

Find groups in each string using passed regular expression

您可以尝试^{}^{},但最好使用^{},因为在电影名称中也可以是数字。下一个解决方案是通过regex^{}前导和尾随空格^{}括号的内容:

#convert column to string
df['movie_title'] = df['movie_title'].astype(str)

#but it remove numbers in names of movies too
df['titles'] = df['movie_title'].str.extract('([a-zA-Z ]+)', expand=False).str.strip()
df['titles1'] = df['movie_title'].str.split('(', 1).str[0].str.strip()
df['titles2'] = df['movie_title'].str.replace(r'\([^)]*\)', '').str.strip()
print df
          movie_title      titles      titles1      titles2
0  Toy Story 2 (1995)   Toy Story  Toy Story 2  Toy Story 2
1    GoldenEye (1995)   GoldenEye    GoldenEye    GoldenEye
2   Four Rooms (1995)  Four Rooms   Four Rooms   Four Rooms
3   Get Shorty (1995)  Get Shorty   Get Shorty   Get Shorty
4      Copycat (1995)     Copycat      Copycat      Copycat

相关问题 更多 >