抓取web中的动态内容

2024-06-06 07:02:15 发布

您现在位置:Python中文网/ 问答频道 /正文

我需要从这个网站Link上抓取新闻公告。 公告似乎是动态生成的。它们不会出现在源代码中。我通常使用机械化,但我想它不会起作用。我能为这个做些什么?我对python或perl很满意。


Tags: 源代码网站link动态公告新闻perl机械化
3条回答

礼貌的选择是询问网站所有者是否有允许您访问其新闻报道的API。

不太礼貌的选择是跟踪在页面加载时发生的HTTP事务,并确定哪个是AJAX调用,该调用将数据拉入。

好像是this one。但它看起来可能包含会话数据,所以我不知道它将继续工作多久。

还有WWW::Scripter“用于编写具有脚本的网站脚本”。从没用过。

如果内容是动态生成的,则可以使用WindmillSeleninum驱动浏览器,并在呈现数据后获取数据。

你可以找到一个例子here

相关问题 更多 >