是否可以使用java在PDF或Word文档中搜索文本?
我没有要求任何产品推荐
我想用Java正则表达式搜索word文档或pdf文档中的文本。可能吗?怎么做
例如,PDF/DOC
如下所示:
(54) About Keyboard More Info Date: 29/02/2003 Printed: US Filed: 19/03/2005 Viewed: 5 times
现在我的目标是使用java在这个文档上运行一个基于正则表达式的搜索
最初,我尝试了文本提取,但由于这些是非结构化的和分散的,我无法使用提取的文本
例如,我想这样做:
File fl = new File ("sample.pdf");
String res= FindBYRegex ("(?s)\\(54\\)\\s*(.*?)\\s*(?=\\(\\d|$\\))");
System.out.println (res);
我想要的输出是:(54) About Keyboard
如何实现我的目标?哪个库可以帮助我使用Java实现这一点
# 1 楼答案
Gnostice PDFOne for Java支持使用Java正则表达式搜索PDF文档中的文本。有关更多详细信息,请点击下面的链接
http://www.gnostice.com/nl_article.asp?id=232&t=PDF_Text_Search_And_PDF_Text_Extraction_Using_PDFOne_for_Java
免责声明:我为Gnostice工作