如果我有标准段落格式的文本(空行后跟缩进),例如文本1,那么使用text.split(“\n\n”)提取段落就足够简单了。
文本1:
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vivamus sit amet sapien velit, ac sodales
ante. Integer mattis eros non turpis interdum et auctor enim consectetur, etc.
Praesent molestie suscipit bibendum. Donec justo purus, venenatis eget convallis sed, feugiat
vitae velit,etc.
但是,如果我有文本的非标准段落格式,如文本2?没有空行和变量前导空格。
文本2:
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vivamus sit amet sapien velit, ac sodales
ante. Integer mattis eros non turpis interdum et auctor enim consectetur, etc.
Praesent molestie suscipit bibendum. Donec justo purus, venenatis eget convallis sed, feugiat
vitae velit,etc.
由于前导空白对标准格式和非标准格式都很常见,我考虑过在regex匹配中为前导空白建立索引,并使段落以这种方式断开,但必须有一种更优雅的方法来做到这一点。
您提出的regex解决方案似乎足够优雅:
这将使用4个连续的空白字符作为段落分隔符。如果更合适,可以使用
'\n\s{3,}'
或类似的方法。相关问题 更多 >
编程相关推荐