python 打开网页并获取源代码
我们开发了一个基于网页的应用程序,里面有用户登录等功能。同时,我们还开发了一个Python应用程序,需要从这个网页上获取一些数据。
有没有办法让Python和系统默认浏览器进行沟通呢?我们的主要目标是用系统浏览器打开一个网页,并获取它的HTML源代码。我们尝试过使用Python的webbrowser模块,成功打开了网页,但没法获取源代码。然后我们又试了urllib2,在这种情况下,我觉得我们需要使用系统默认浏览器的cookie等信息,但我不想这样做,因为这涉及到安全问题。
3 个回答
0
如果你的网站在没有JavaScript的情况下也能正常浏览,那么你可以试试Mechanize或者zope.testbrowser这两个工具。这些工具比urllib2
更高级,能让你做一些更方便的事情,比如在网页上点击链接和填写HTML表单。
比如说,当你需要在一个使用了基于cookie的身份验证和HTML表单登录的网站上导航时,这些工具就会很有帮助。
0
看看这个叫 nltk
的模块——它有一些工具可以用来查看网页和获取文本。还有一个叫 BeautifulSoup
的工具,功能更强大一些。我现在正在用这两个工具来抓取网页上的内容,以便用于学习算法——这两个模块都很常用,所以你可以在这里找到很多提示哦 :)
1
你可以试试Selenium,这个工具最初是为了测试而开发的,但没有什么能阻止你把它用在其他方面。