Regex在Sublime中工作,而不是Python(Jupyter)

2024-04-29 04:05:59 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在创建一个Jupyter笔记本来清理大量带有regex代码的小说,我正在Sublime中测试。 我的很多文本都包含“谷歌数字化”这一短语,因为这就是我从中获得PDF文件的地方,我从中进行了光学字符识别。 我想删除所有包含短语“数字化”,或者更确切地说是“数字化”的句子,因为第一部分并不总是被正确地转录。你知道吗

当我在Sublimes“replace function”中使用这句话时,我得到的正是我想要的结果:

^.*igitized.*$

但是,当我尝试使用回复sub方法在我的Jupyter笔记本中,从其他一些短语开始,没有正确识别“digitalized by Google”行,而是用“nothing”代替。你知道吗

text = re.sub(r'^.*igitized.*$', '', text)

我错过了什么?你知道吗


Tags: 文件代码text文本pdf地方笔记本jupyter
1条回答
网友
1楼 · 发布于 2024-04-29 04:05:59

默认情况下,“^”只在字符串的开头匹配,“$”只在字符串的结尾和字符串结尾的换行符(如果有)之前匹配。添加关于多行匹配行首的标志。你知道吗

text = re.sub(r'^.*igitized.*$', '', text, flags=re.MULTILINE)

Using ^ to match beginning of line in Python regex

相关问题 更多 >