我一直在把一些书数字化,希望能整理一下目录。我的输出如下所示:
Lorem ipsum dolor sit amet, consectetur
adipiscing elit.
(January 1, 2008)
Neque porro quisquam est qui dolorem
ipsum quia dolor
(June 30, 2007)361
Finibus Bonorum et Malorum
(July 3, 2008)398
我想使用\)\d*\n*
分隔单个文章,但如何匹配此字符串
一些页码缺失,一些标题,如Neque porro quisquam est qui dolorem ipsum quia dolor
,已打印在多行上
理想情况下,我希望将它们分成Finibus Bonorum et Malorum (July 3, 2008)398
之类的部分来提取标题、日期和页码
很抱歉问这么简单的问题!提前感谢你的帮助
因为我没有足够的声誉,所以不能发表评论。在Windows中将其设置为环境变量时,我也遇到了这个问题。事实证明,你需要使用^来转义|字符
http://www.robvanderwoude.com/useless.php#EscapeChar
所以这对我有用
相关问题 更多 >
编程相关推荐