用regex解析Whatsapp聊天日志

2024-06-16 13:04:34 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图用regex解析whatsapp聊天日志。我有一个解决方案,大多数情况下,但我正在寻找改善,但不知道如何,因为我是一个相当新的正则表达式。在

在聊天.txt文件如下所示:

[06.12.16, 16:46:19] Person One: Wow thats amazing
[06.12.16, 16:47:13] Person Two: Good morning and this goes over multiple
lines as it is a very long message
[06.12.16, 16:47:22] Person Two: ::

虽然到目前为止,我的解决方案可以正确地解析这些消息中的大多数,但是我有几百种情况下消息以冒号开头,就像上面的最后一个示例一样。这将导致一个不需要的值Person Two: :作为发送方。在

以下是我目前正在使用的正则表达式:

^{pr2}$

如果您能给我一些建议,我将不胜感激!在


Tags: 文件txt消息情况解决方案oneregexperson
1条回答
网友
1楼 · 发布于 2024-06-16 13:04:34

在应用regex之前,我会对列表进行预处理以删除连续的冒号。所以对于每一行,例如

 line = [06.12.16, 16:47:22] Person Two: ::
 line = line.replace("::","")

这将导致:

^{pr2}$

然后可以对预处理的数据调用regex函数。在

相关问题 更多 >