用于web存档回放和实时web代理的python Wayback

pywayback的Python项目详细描述


入门–运行自己的网络存档

在0.9.0版中, pywb 提供了新的简化的、基于目录的init系统来创建和 直接从磁盘上的存档集合运行您自己的Web存档重播系统(Wayback机器)。

一个新的实用程序wb manager从命令行执行最常见的集合管理任务。

<H3>1。存档网页

如果您没有任何web存档文件(warcs),可以使用免费的 https://webrecorder.io/ 服务

例如,您可以访问https://webrecorder.io/record/http://example.com" rel="nofollow">https://webrecorder.io/record/http://example.com,然后(几秒钟后), 单击 下载->;web存档(warc) 以获取warc文件(.warc.gz)

您在录制会话期间在浏览器中看到的所有内容都已存档。

<H3>2。创建新集合

每个集合包含任意数量的warc文件。

一旦您至少有一个warc/arc文件,您就可以如下设置一个快速集合,包括安装 pywb

pip install pywb
wb-manager init my_coll
wb-manager add my_coll <path/to/warc>
wayback

将浏览器指向http://localhost:8080/my coll/<;url>;/,其中 <;url>; 是您之前录制到warc/arc文件中的URL。(如果您刚刚录制了http://example.com/,那么您应该能够查看http://localhost:8080/my-coll/http://example.com/)

如果一切正常,您应该会看到您的 <;url>; 存档版本。恭喜,你现在正在运行你自己的网络档案!

wiki上提供了更详细的教程

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java ZK我们可以保存Windows组件状态吗?   java中的xpath比较路径   将字符串解析为长字符串时出现java数字格式异常   Apache CXF中获取异常中的服务器stacktrace的java问题   java我正在用j2me编程,我需要用丰富的格式编写文本以获得帮助屏幕   Android Room数据库中id字段的java名称字段约定   对于API9,java ArrayList<HashMap<String,String>>无法正确转换为JSONArray   api是最初的Java理想死了吗?   opencv java中的python掩码图像   java为什么在实现克隆方法时返回super。克隆()不是此克隆()   java HttpUrlConnection是否存在并发惩罚?   有没有办法将java arraylist对象复制到codemodel生成的源代码中?