在段落分隔符不标准的段落上拆分文本

2024-05-12 22:35:49 发布

您现在位置:Python中文网/ 问答频道 /正文

如果我有标准段落格式的文本(空行后跟缩进),例如文本1,那么使用text.split(“\n\n”)提取段落就足够简单了。

文本1:

      Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vivamus sit amet sapien velit, ac sodales   
 ante. Integer mattis eros non turpis interdum et auctor enim consectetur, etc.

      Praesent molestie suscipit bibendum. Donec justo purus, venenatis eget convallis sed, feugiat    
 vitae velit,etc.

但是,如果我有文本的非标准段落格式,如文本2?没有空行和变量前导空格。

文本2:

      Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vivamus sit amet sapien velit, ac sodales   
 ante. Integer mattis eros non turpis interdum et auctor enim consectetur, etc.
    Praesent molestie suscipit bibendum. Donec justo purus, venenatis eget convallis sed, feugiat    
 vitae velit,etc.

由于前导空白对标准格式和非标准格式都很常见,我考虑过在regex匹配中为前导空白建立索引,并使段落以这种方式断开,但必须有一种更优雅的方法来做到这一点。


Tags: 文本标准格式etc段落ipsumloremdolor
1条回答
网友
1楼 · 发布于 2024-05-12 22:35:49

您提出的regex解决方案似乎足够优雅:

re.split('\s{4,}',text)

这将使用4个连续的空白字符作为段落分隔符。如果更合适,可以使用'\n\s{3,}'或类似的方法。

相关问题 更多 >