java从网站中提取信息
并不是每个网站都能通过XML提要、API等很好地公开其数据
我如何从网站上提取信息?例如:
...
<div>
<div>
<span id="important-data">information here</span>
</div>
</div>
...
我有使用ApacheXMLBeans进行Java编程和编码的背景。当我知道结构和数据在一个已知标记之间时,有什么类似于解析HTML的东西吗
谢谢
你可以在下面搜索框中键入要查询的问题!
并不是每个网站都能通过XML提要、API等很好地公开其数据
我如何从网站上提取信息?例如:
...
<div>
<div>
<span id="important-data">information here</span>
</div>
</div>
...
我有使用ApacheXMLBeans进行Java编程和编码的背景。当我知道结构和数据在一个已知标记之间时,有什么类似于解析HTML的东西吗
谢谢
# 1 楼答案
对于这样的任务,Java似乎是一个相当困难的约束。这是一个艰难的要求吗?脚本语言是构建大量“最后一英里”代码的理想选择
如果你对它持开放态度,ruby+hpricot会让它变得非常简单。可以使用css或xpath选择器(或两者)来查找(和操作)HTML中的内容。抓取文档、解析文档并提取示例中的文本实际上是一行代码
# 2 楼答案
现在有几个面向Java的开源HTML解析器
我过去用过JTidy,而且运气不错。它将为您提供html页面的DOM,您应该能够从中获取所需的标记
# 3 楼答案
有两个用java编写的屏幕抓取工具
总的来说,听起来你想看看regular expressions,它完成了你要寻找的模式匹配
希望有帮助