我正在创建一个Jupyter笔记本来清理大量带有regex代码的小说,我正在Sublime中测试。 我的很多文本都包含“谷歌数字化”这一短语,因为这就是我从中获得PDF文件的地方,我从中进行了光学字符识别。 我想删除所有包含短语“数字化”,或者更确切地说是“数字化”的句子,因为第一部分并不总是被正确地转录。你知道吗
当我在Sublimes“replace function”中使用这句话时,我得到的正是我想要的结果:
^.*igitized.*$
但是,当我尝试使用回复sub方法在我的Jupyter笔记本中,从其他一些短语开始,没有正确识别“digitalized by Google”行,而是用“nothing”代替。你知道吗
text = re.sub(r'^.*igitized.*$', '', text)
我错过了什么?你知道吗
默认情况下,“^”只在字符串的开头匹配,“$”只在字符串的结尾和字符串结尾的换行符(如果有)之前匹配。添加关于多行匹配行首的标志。你知道吗
Using ^ to match beginning of line in Python regex
相关问题 更多 >
编程相关推荐