我基本上已经阅读了PDF文件的内容。现在,我想弄清楚标题。一致性是-每个标头采用以下模式: "1. 我的头球。接下来的文字是……”
例如:
x = '1. Some Header. and some more text 2. Another Header. And that is the end'
import re
re.findall((r'[0-9]\..*\.'),x)
我试过了,但没成功。你知道吗
我希望的是: 最佳案例:['1。一些标题“,”2。另一个标题'] 最坏情况:['Some Header','Another Header']
你可以用
^{}
您可以使用
re.findall
:输出:
如果标头应该从1开始,则可以使用捕获组:
Regex demo
你还能用吗
解释
(?<!\S)
断言直接在左边的不是非空格字符(
捕获组1\d+\.[^.]+
匹配1+个数字、点和除点以外的任何字符的1+倍)\.
关闭组1并匹配一个点Regex demo| Python demo
例如使用关于芬德尔你知道吗
结果
相关问题 更多 >
编程相关推荐