如何刮取Quora配置文件页面的“更多”部分?

2024-03-28 23:20:00 发布

您现在位置:Python中文网/ 问答频道 /正文

为了确定Quora上所有主题的列表,我决定从抓取profile页面开始,后面有很多主题,例如http://www.quora.com/Charlie-Cheever/topics。我从这个页面抓取了主题,但是现在我需要从Ajax页面中抓取主题,这个页面是在点击页面底部的“更多”按钮时加载的。我试图找到在单击“More”按钮时执行的javascript函数,但还没有运气。以下是来自html页面的三个片段,它们可能是相关的:

<div class=\"pager_next action_button\" id=\"__w2_mEaYKRZ_more\">More</div>
{\"more_button\": \"mEaYKRZ\"}

\"dPs6zd5\": {\"more_button\": \"more_button\"}

new(PagedListMoreButton)(\"mEaYKRZ\",\"more_button\",{},\"live:ld_c5OMje_9424:cls:a.view.paged_list:PagedListMoreButton:/TW7WZFZNft72w\",{})

你们中有人知道点击“更多”按钮时执行的javascript函数的名称吗?如有任何帮助,我们将不胜感激:)

此时,Python脚本(遵循this教程)如下所示:

^{pr2}$

Tags: 函数divhttp主题列表morebutton页面
1条回答
网友
1楼 · 发布于 2024-03-28 23:20:00

您可以在浏览器的dom检查器中的事件侦听器下看到它。它是一个匿名函数,如下所示:

function (){return typeof d!=="undefined"&&!d.event.triggered?d.event.handle.apply(l.elem,arguments):b}

这看起来是一个很难抓取的网站,你可以考虑使用selenium。在

相关问题 更多 >