将基于JavaScript的网站保存为html文件,保留表单

2024-06-02 08:51:32 发布

您现在位置:Python中文网/ 问答频道 /正文

我已经尽了最大的努力,但没有找到答案

我试图保存这样的页面: http://www.folkbibeln.it/?book=1joh&chapter=1&verse=1

分隔html页面,并保留格式。我可以把每一页,复制,粘贴到文字处理软件,并保存为html,但这将需要几个小时。我在想也许有一些代码我可以用来自动化它?我就是搞不懂,因为它不像一个直接的html网站

Python是我常用的语言


Tags: 答案代码http粘贴htmlwww格式it
2条回答

作为一种暴力方法,您可以使用Headless Browser为您加载每个页面并将其保存到一个文件中

但正如mplungjan已经提到的,所有文本都在js文件中

您可以将这些文件保存到磁盘上,然后使用构建html页面的脚本,编写一个小nodejs脚本,为您构建所有html文件(以原始脚本为模板。) 但是nodejs不是python

根据您对文本的处理方式,将这些js文件转换为JSON并对其进行解析并不困难,或者直接转换为python数据结构,您可以在自己选择的脚本中导入和处理这些数据结构

编辑:

再看一眼,我看到了:http://www.folkbibeln.it/chapters/1joh1.html

似乎有你想要的纯html文件,你只要下载它们

所有文本都在JS文件中。你加载你给我们的网址。单击ctrl-s并选择“网页完成”。然后您将拥有文件夹1 Joh 1 – Svenska Folkbibeln_files中的所有文本,除非在JS文件中呈现JS,否则无法将其另存为格式化文本

相关问题 更多 >