如何使用web编程缓存网页?

2024-05-14 13:52:09 发布

您现在位置:Python中文网/ 问答频道 /正文

  1. 我想写一个web应用程序,它可以像现在这样获取网页的快照。我指的不是照片/图像/图片。相反,我想保存该网页以及在网页中使用的javascripts、CSS和图像。如果有帧,我也需要检测它们,并对帧源url执行相同的操作。在

    换句话说,我到底想做什么存档.org一直在做。

  2. 我无法决定实现这一点的语言。你能帮我做这个吗?

  3. 编辑:另外,随着网页快照数量的增加,有谁能帮忙解决这些快照的存储问题?我的想法是为快照创建一个唯一的ID(可能是timestamp),创建一个名为Unique ID(timestamp)的目录,并将所有快照文件直接存储在其中,然后将快照的引用和元数据信息存储在数据库中。我的方法有什么问题吗?有更好的方法吗?


Tags: 方法org图像web语言id应用程序url
3条回答

您可以使用任何具有下降HTML解析器的语言来实现这一点。不管怎样,你可能还想看看wget,它有一个很好的“镜像”功能,并且可以为你重写链接。在

此链接显示如何使用VB.NET版,从一个页面中刮取所有链接。在

http://www.consultsarath.com/contents/articles/KB000017-web-scraping--extract-all-links-from-a-web-page-using-vbnet.aspx

您可以使用类似的方法获取指向所有图像、脚本等的链接

然后,您需要一些逻辑来确定要下载哪些引用的文件。在

你会想要大多数图像,但可能不是所有的脚本。(你真的想为每个网页提供一份jquery吗?可能是最好的一个哈希值)。在

我会远离PHP。Python或VB.NET版都是合乎逻辑的选择。在

Python有一个很好的库,它来自抓取网站scrapy。它有大量的功能和优秀的文档。或者,您可以使用urllib2,或httplib2html5lib或{a5}等工具编写自己的scraper。当我第一次发现Python的时候,我觉得它很难写。在

相关问题 更多 >

    热门问题