用于web存档回放和实时web代理的python Wayback
pywayback的Python项目详细描述
入门–运行自己的网络存档
在0.9.0版中, pywb 提供了新的简化的、基于目录的init系统来创建和 直接从磁盘上的存档集合运行您自己的Web存档重播系统(Wayback机器)。
一个新的实用程序wb manager从命令行执行最常见的集合管理任务。
如果您没有任何web存档文件(warcs),可以使用免费的 https://webrecorder.io/ 服务
例如,您可以访问https://webrecorder.io/record/http://example.com" rel="nofollow">https://webrecorder.io/record/http://example.com,然后(几秒钟后), 单击 下载->;web存档(warc) 以获取warc文件(.warc.gz)
您在录制会话期间在浏览器中看到的所有内容都已存档。
每个集合包含任意数量的warc文件。
一旦您至少有一个warc/arc文件,您就可以如下设置一个快速集合,包括安装 pywb :
pip install pywb wb-manager init my_coll wb-manager add my_coll <path/to/warc> wayback
将浏览器指向http://localhost:8080/my coll/<;url>;/,其中 <;url>; 是您之前录制到warc/arc文件中的URL。(如果您刚刚录制了http://example.com/,那么您应该能够查看http://localhost:8080/my-coll/http://example.com/)
如果一切正常,您应该会看到您的 <;url>; 存档版本。恭喜,你现在正在运行你自己的网络档案!