：将html另存为文本

javascript:h=document.getElementsByTagName('html')[0].innerHTML;function%20disp(h){h=h.replace(/</g,%20'\n<');h=h.replace(/>/g,'>');document.getElementsByTagName('body')[0].innerHTML='<pre><html>'+h.replace(/(\n|\r)+/g,'\n')+'</html></pre>';}void(disp(h));

from BeautifulSoup import BeautifulSoup from BeautifulSoup import BeautifulStoneSoup import BeautifulSoup import urllib2 from BeautifulSoup import BeautifulSoup page = urllib2.urlopen("http://www.doctorisin.net/") soup = BeautifulSoup(page) print soup.prettify() fp = open('file.txt','wb') fp.write(soup.prettify())

2条回答

网友

1楼 · 编辑于 2024-06-05 19:44:25

如果要保存web服务器提供的确切HTML，请不要使用BeautifulSoup（这是一个HTML解析器，在预打印时可能会修改代码）；这将是一个更好的解决方案：

import urllib2
file("my_file.txt", "w").write(urllib2.urlopen("http://www.doctorisin.net/").read())

默认情况下，Firefox不仅保存HTML，还保存显示页面所需的文件（包括css和脚本）。

网友

2楼 · 编辑于 2024-06-05 19:44:25

你看到的是静态网页和动态网页的区别。

与静态网页不同，动态网页可以在加载时修改底层html。Javascript可以转储加载页面的完整html，因为它可以访问浏览器创建的修改后的DOM。

相反，如果同一个网页从服务器下载并直接馈送到BeautifulSoup，它将只能将其解析为静态html。要获得完整的、动态的内容，首先需要由浏览器（或等效的浏览器）处理页面。

相关问题更多 >

编程相关推荐

热门问题

热门文章