Java如何从Web浏览器获取文本?
我想知道是否有人知道一种从Java应用程序获取当前网页上所有文本的好技术
我尝试了两种方法:
OCR:这对我来说不够准确,因为文本的正确率大约只有60%。而且它只得到屏幕截图可以看到的文本,我需要页面上的所有文本
Robot类:我现在得到的方法是使用Robot类向我们提供Control-A,Control-C方法,然后从剪贴板中获取文本。在获取文本方面,这种方法被证明是有用的。我唯一的问题是用户在瞬间看到突出显示的文本,这是我不希望他们看到的
虽然这是大学最后一年的一个项目,也是一个反网络欺凌/儿童美容项目,并且只有在检测到恶意行为时才会存储信息,但对某些人来说,这可能听起来像某种形式的间谍软件
有谁能想出一个更好的方法让文本从浏览器中消失吗
非常感谢
# 1 楼答案
你可以试试这样的
# 2 楼答案
这是我为此目的创建的实用程序类。它有运行时版本和非运行时版本,还提供了验证检索到的源的尾部的功能
# 3 楼答案
您可以使用URLConnection或Apache的HTTPClient从网站获取所有HTML 下面的问题解释了如何做到这一点: Get html file Java
当然,它不会给你们在二进制文件(即闪存文件)图像等文本,只有OCR将工作
# 4 楼答案
获取URL并使用HTTP客户端类读取页面。i、 e.ApacheCommonsHttpGet
有关更多信息,请阅读此处:http://hc.apache.org/httpclient-3.x/tutorial.html
# 5 楼答案
最通用的解决方案是流量嗅探器