考虑以下pandas数据框:
In [114]:
df['movie_title'].head()
Out[114]:
0 Toy Story (1995)
1 GoldenEye (1995)
2 Four Rooms (1995)
3 Get Shorty (1995)
4 Copycat (1995)
...
Name: movie_title, dtype: object
更新:
我想用正则表达式提取电影的标题。所以,让我们使用以下正则表达式:\b([^\d\W]+)\b
。所以我尝试了以下几点:
df_3['movie_title'] = df_3['movie_title'].str.extract('\b([^\d\W]+)\b')
df_3['movie_title']
但是,我得到了以下信息:
0 NaN
1 NaN
2 NaN
3 NaN
4 NaN
5 NaN
6 NaN
7 NaN
8 NaN
你知道如何从pandas数据框的文本中提取特定特征吗?。更具体地说,如何在一个全新的数据帧中提取电影的标题?。例如,所需的输出应为:
Out[114]:
0 Toy Story
1 GoldenEye
2 Four Rooms
3 Get Shorty
4 Copycat
...
Name: movie_title, dtype: object
您应该像下面这样用
()
分配文本组来捕获它的特定部分。您可以尝试^{} 和^{} ,但最好使用^{} ,因为在电影名称中也可以是数字。下一个解决方案是通过} 前导和尾随空格^{} 括号的内容:
regex
和^{相关问题 更多 >
编程相关推荐