用于OCR清理的正则表达式

2024-04-29 12:19:20 发布

您现在位置:Python中文网/ 问答频道 /正文

我一直在把一些书数字化,希望能整理一下目录。我的输出如下所示:

Lorem ipsum dolor sit amet, consectetur 
adipiscing elit.
(January 1, 2008)
Neque porro quisquam est qui dolorem 
ipsum quia dolor
(June 30, 2007)361
Finibus Bonorum et Malorum
(July 3, 2008)398

我想使用\)\d*\n*分隔单个文章,但如何匹配此字符串

一些页码缺失,一些标题,如Neque porro quisquam est qui dolorem ipsum quia dolor,已打印在多行上

理想情况下,我希望将它们分成Finibus Bonorum et Malorum (July 3, 2008)398之类的部分来提取标题、日期和页码

很抱歉问这么简单的问题!提前感谢你的帮助


Tags: julyetestipsumdolor页码quifinibus
1条回答
网友
1楼 · 发布于 2024-04-29 12:19:20

因为我没有足够的声誉,所以不能发表评论。在Windows中将其设置为环境变量时,我也遇到了这个问题。事实证明,你需要使用^来转义|字符

http://www.robvanderwoude.com/useless.php#EscapeChar

所以这对我有用

-Dhttp.nonProxyHosts=localhost^|127.0.0.1^|*.foo.com

相关问题 更多 >