从docx fi中删除字符

2024-04-29 17:29:51 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个非常大的docx文件(700页),它有一个日志格式

[15/09/2014, 15:30:21] Stijn: Nice

我希望删除时间,让它看起来像这样

[15/09/2014] Stijn: Nice

我很确定这可以用python来实现,但是还没有找到确切的方法。 我应该用这样的东西?你知道吗

line.replace(char,'')

它是一个whatsapp日志文件,看起来像这样(有些文本使用两行)

[15/09/2014, 15:53:39] Dylan: Beste selfie ever 
[15/09/2014, 15:53:52] Sipke: Ja 
[15/09/2014, 15:54:05] ‎You changed this group's icon

感谢您的帮助:)


Tags: 文件方法文本格式line时间replacewhatsapp
1条回答
网友
1楼 · 发布于 2024-04-29 17:29:51

如果你知道如何使用正则表达式,这是很容易做到的。你想:

1)逐行读取文件

2)用空白文本替换时间戳。你知道吗

下面是我为您准备的python代码示例:

#!/usr/bin/python
import re

text = "[15/09/2014, 15:30:21] Stijn: Nice"

# Capture time stamp and substitute it with blank
new = re.sub(r'(, [0-9]{2}:[0-9]{2}:[0-9]{2})', "", text)    
print new

这将产生:

[15/09/2014] Stijn: Nice

如果您想摆弄/理解我在这里使用的regex表达式的用法,请遵循以下链接-https://regexr.com/406sc

相关问题 更多 >