如何裁剪文本?
我有一些文本,想做一个类似于裁剪图片的操作。
这个文档的大小只有几千字节,但它的格式是
“blah blah 标题 内容 结束 blah blah。”
我想用什么函数来实现,让它像这样 crop(document,"标题","结束")
,然后返回 "标题 内容 结束"
呢?
问题是,像 string.replace()
这样的函数总是把已知的文本替换成其他东西。但我知道每个文档里的 标题
和 结束
,而在它们之间、之前和之后的内容都是未知的或独特的。
2 个回答
1
有很多种方法,比如:
import re
doc = "blah blah title body end blah blah."
print re.search('title.+?end', doc).group(0) # title body end