用于OCR清理的正则表达式

2024-04-29 12:19:20 发布

男 | 程序猿一只，喜欢编程写python代码。

我一直在把一些书数字化，希望能整理一下目录。我的输出如下所示：

Lorem ipsum dolor sit amet, consectetur 
adipiscing elit.
(January 1, 2008)
Neque porro quisquam est qui dolorem 
ipsum quia dolor
(June 30, 2007)361
Finibus Bonorum et Malorum
(July 3, 2008)398

我想使用\)\d*\n*分隔单个文章，但如何匹配此字符串

一些页码缺失，一些标题，如Neque porro quisquam est qui dolorem ipsum quia dolor，已打印在多行上

理想情况下，我希望将它们分成Finibus Bonorum et Malorum (July 3, 2008)398之类的部分来提取标题、日期和页码

很抱歉问这么简单的问题！提前感谢你的帮助

Tags： july et est ipsum dolor 页码 qui finibus

1条回答

网友

1楼 · 发布于 2024-04-29 12:19:20

因为我没有足够的声誉，所以不能发表评论。在Windows中将其设置为环境变量时，我也遇到了这个问题。事实证明，你需要使用^来转义|字符

http://www.robvanderwoude.com/useless.php#EscapeChar

所以这对我有用

-Dhttp.nonProxyHosts=localhost^|127.0.0.1^|*.foo.com

用于OCR清理的正则表达式

相关问题更多 >

编程相关推荐

热门问题

热门文章

用于OCR清理的正则表达式

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >