如何使用web编程缓存网页？

3条回答

网友
1楼 · 编辑于 2024-05-14 13:52:09

您可以使用任何具有下降HTML解析器的语言来实现这一点。不管怎样，你可能还想看看wget，它有一个很好的“镜像”功能，并且可以为你重写链接。在

网友
2楼 · 编辑于 2024-05-14 13:52:09

此链接显示如何使用VB.NET版，从一个页面中刮取所有链接。在
http://www.consultsarath.com/contents/articles/KB000017-web-scraping--extract-all-links-from-a-web-page-using-vbnet.aspx
您可以使用类似的方法获取指向所有图像、脚本等的链接
然后，您需要一些逻辑来确定要下载哪些引用的文件。在
你会想要大多数图像，但可能不是所有的脚本。（你真的想为每个网页提供一份jquery吗？可能是最好的一个哈希值）。在
我会远离PHP。Python或VB.NET版都是合乎逻辑的选择。在

网友
3楼 · 编辑于 2024-05-14 13:52:09

Python有一个很好的库，它来自抓取网站scrapy。它有大量的功能和优秀的文档。或者，您可以使用urllib2，或httplib2，html5lib或{a5}等工具编写自己的scraper。当我第一次发现Python的时候，我觉得它很难写。在

相关问题更多 >

编程相关推荐

热门问题

热门文章