2024-06-02 08:51:32 发布
网友
我已经尽了最大的努力,但没有找到答案
我试图保存这样的页面: http://www.folkbibeln.it/?book=1joh&chapter=1&verse=1
分隔html页面,并保留格式。我可以把每一页,复制,粘贴到文字处理软件,并保存为html,但这将需要几个小时。我在想也许有一些代码我可以用来自动化它?我就是搞不懂,因为它不像一个直接的html网站
Python是我常用的语言
作为一种暴力方法,您可以使用Headless Browser为您加载每个页面并将其保存到一个文件中
但正如mplungjan已经提到的,所有文本都在js文件中
您可以将这些文件保存到磁盘上,然后使用构建html页面的脚本,编写一个小nodejs脚本,为您构建所有html文件(以原始脚本为模板。) 但是nodejs不是python
根据您对文本的处理方式,将这些js文件转换为JSON并对其进行解析并不困难,或者直接转换为python数据结构,您可以在自己选择的脚本中导入和处理这些数据结构
编辑:
再看一眼,我看到了:http://www.folkbibeln.it/chapters/1joh1.html
似乎有你想要的纯html文件,你只要下载它们
所有文本都在JS文件中。你加载你给我们的网址。单击ctrl-s并选择“网页完成”。然后您将拥有文件夹1 Joh 1 – Svenska Folkbibeln_files中的所有文本,除非在JS文件中呈现JS,否则无法将其另存为格式化文本
1 Joh 1 – Svenska Folkbibeln_files
作为一种暴力方法,您可以使用Headless Browser为您加载每个页面并将其保存到一个文件中
但正如mplungjan已经提到的,所有文本都在js文件中
您可以将这些文件保存到磁盘上,然后使用构建html页面的脚本,编写一个小nodejs脚本,为您构建所有html文件(以原始脚本为模板。) 但是nodejs不是python
根据您对文本的处理方式,将这些js文件转换为JSON并对其进行解析并不困难,或者直接转换为python数据结构,您可以在自己选择的脚本中导入和处理这些数据结构
编辑:
再看一眼,我看到了:http://www.folkbibeln.it/chapters/1joh1.html
似乎有你想要的纯html文件,你只要下载它们
所有文本都在JS文件中。你加载你给我们的网址。单击ctrl-s并选择“网页完成”。然后您将拥有文件夹
1 Joh 1 – Svenska Folkbibeln_files
中的所有文本,除非在JS文件中呈现JS,否则无法将其另存为格式化文本相关问题 更多 >
编程相关推荐