2024-06-06 07:02:15 发布
网友
我需要从这个网站Link上抓取新闻公告。 公告似乎是动态生成的。它们不会出现在源代码中。我通常使用机械化,但我想它不会起作用。我能为这个做些什么?我对python或perl很满意。
礼貌的选择是询问网站所有者是否有允许您访问其新闻报道的API。
不太礼貌的选择是跟踪在页面加载时发生的HTTP事务,并确定哪个是AJAX调用,该调用将数据拉入。
好像是this one。但它看起来可能包含会话数据,所以我不知道它将继续工作多久。
还有WWW::Scripter“用于编写具有脚本的网站脚本”。从没用过。
如果内容是动态生成的,则可以使用Windmill或Seleninum驱动浏览器,并在呈现数据后获取数据。
Windmill
Seleninum
你可以找到一个例子here。
礼貌的选择是询问网站所有者是否有允许您访问其新闻报道的API。
不太礼貌的选择是跟踪在页面加载时发生的HTTP事务,并确定哪个是AJAX调用,该调用将数据拉入。
好像是this one。但它看起来可能包含会话数据,所以我不知道它将继续工作多久。
还有WWW::Scripter“用于编写具有脚本的网站脚本”。从没用过。
如果内容是动态生成的,则可以使用
Windmill
或Seleninum
驱动浏览器,并在呈现数据后获取数据。你可以找到一个例子here。
相关问题 更多 >
编程相关推荐