python 打开网页并获取源代码

0 投票
3 回答
2596 浏览
提问于 2025-04-17 18:00

我们开发了一个基于网页的应用程序,里面有用户登录等功能。同时,我们还开发了一个Python应用程序,需要从这个网页上获取一些数据。

有没有办法让Python和系统默认浏览器进行沟通呢?我们的主要目标是用系统浏览器打开一个网页,并获取它的HTML源代码。我们尝试过使用Python的webbrowser模块,成功打开了网页,但没法获取源代码。然后我们又试了urllib2,在这种情况下,我觉得我们需要使用系统默认浏览器的cookie等信息,但我不想这样做,因为这涉及到安全问题。

3 个回答

0

如果你的网站在没有JavaScript的情况下也能正常浏览,那么你可以试试Mechanize或者zope.testbrowser这两个工具。这些工具比urllib2更高级,能让你做一些更方便的事情,比如在网页上点击链接和填写HTML表单。

比如说,当你需要在一个使用了基于cookie的身份验证和HTML表单登录的网站上导航时,这些工具就会很有帮助。

0

看看这个叫 nltk 的模块——它有一些工具可以用来查看网页和获取文本。还有一个叫 BeautifulSoup 的工具,功能更强大一些。我现在正在用这两个工具来抓取网页上的内容,以便用于学习算法——这两个模块都很常用,所以你可以在这里找到很多提示哦 :)

1

你可以试试Selenium,这个工具最初是为了测试而开发的,但没有什么能阻止你把它用在其他方面。

撰写回答