在J中从网页中提取HTML

网友

1楼 · 编辑于 2024-04-25 12:02:57

也许您还应该考虑另一种选择，比如从命令行运行一个标准实用程序，如wget或{a2}，将站点树提取到本地目录树中。然后使用本地副本进行扫描（用Java、Python等等）。这样做应该比自己实现所有无聊的东西（如错误处理、参数解析等）更简单。在

如果您想获取站点中的所有页面，wget和curl不知道如何从HTML页面获取链接。另一种方法是使用open source web crawler。在

网友

2楼 · 编辑于 2024-04-25 12:02:57

在Java中：

URL url = new URL("http://stackoverflow.com");
URLConnection connection = new URLConnection(url);
InputStream stream = url.openConnection();
// ... read stream like any file stream

这段代码对于编写脚本和内部使用都很有用。不过，我反对将其用于生产用途。它不处理超时和失败的连接。在

我建议在生产中使用HttpClient library。它支持身份验证、重定向处理、线程、池等

网友

3楼 · 编辑于 2024-04-25 12:02:57

在Python中：

import urllib
# Get a file-like object for the Python Web site's home page.
f = urllib.urlopen("http://www.python.org")
# Read from the object, storing the page's contents in 's'.
s = f.read()
f.close()

有关详细信息，请参见Python and HTML Processing。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

在J中从网页中提取HTML

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >