如何从动态网页中检索标题

2024-04-25 20:42:00 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用Django开发一个书签应用程序,希望从使用javascript生成标题的网页中提取标题。我已经看过windmill并安装/运行了selenium,这很有用,但我相信这些工具不仅仅是获取网页标题所需的工具。我目前正在尝试使用spynner,但是在页面完全呈现后没有成功地检索内容。这是我目前拥有的代码。。。

from spynner import Browser
from pyquery import PyQuery
browser = Browser()
browser.set_html_parser(PyQuery)
browser.load("https://www.coursera.org/course/techcity")  

在pythonshell中执行最后一行时,我收到一个SpynnerTimeout:Timeout reached:10秒错误。如果我再次执行最后一条语句,它将返回True,但只返回运行javascript之前的页面,它没有“正确”的页面标题。我还尝试了以下方法:

^{pr2}$

但这也返回了不正确的标题-'Coursera.org网站'(即运行javascript之前的标题)。

以下是我的问题:

  1. 有没有更有效的推荐方法来提取使用javascript动态生成的web页面标题,使用其他python工具/库?如果是这样,建议的方法是什么?-任何示例代码都值得赞赏。在
  2. 如果使用spynner是一种很好的方法,那么在页面加载之后,或者更好的是,在javascript呈现标题之后,我应该做些什么来获取标题。我现在得到的代码正是我从一篇博客文章中拼凑出来的,并在github上查看spynner的源代码。在

Tags: 工具django方法代码fromorgimportbrowser