我试图通过从文本中提取日期信息来创建一个新列。我发现日期在每行的末尾,在最后两个圆括号内
Text
"«A mio avviso, e credo non solo mio, (17-11-2020 12:42:05)"
"Roma, 17 nov – Dalle elezioni, non è facile (…)\n (17-11-2020 12:42:04)"
'Decine di avvocati del libero foro di tutte le regioni ... (17-11-2020 12:41:08)'
"Ci sono riusciti: vi stanno facendo odiare l'un l'altro (17-11-2020 12:41:01)"
'Luciano ,\xa0 coreografo, esprime la sua opinione e il mondo de... (17-11-2020 12:40:01)'
为了提取日期时间,我做了如下操作:
df['Date'] = df['Text'].str.extract('(?<=\()(.*?)(?=\)$)')
总体来说,这很好,但我也希望删除一些案例,这些案例没有包含在前面的代码中。 例如:
0 17-11-2020 12:42:05
1 17-11-2020 12:42:04
2 17-11-2020 12:41:08
3 video) (17-11-2020 12:41:01 # <- here the wrong extraction
4 17-11-2020 12:40:01
...
20084 07-02-2020 12:47:11
该行的文本如下所示:
"Ci sono riusciti: vi stanno facendo odiare l'un l'altro. (video) (17-11-2020 12:41:01)"
我只提取了最后一个括号内的内容,我将能够得到我想要的,即。17-11-2020 12:41:01.
你知道我怎么才能得到这个吗? 谢谢
试着跑两遍。提取并替换
尝试:
使用-
输出
相关问题 更多 >
编程相关推荐