从URL获取内容的自动化过程

2024-04-20 16:20:15 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个巨大的名单,从一个客户端的网址,我需要通过运行,以便我可以从网页的内容。此内容位于页面中的不同标记中。你知道吗

我期待着创建一个自动化的服务来做到这一点,我可以离开运行完成。 我希望自动过程加载每个页面并从特定的html标记中获取内容,然后处理一些这些内容以确保html是正确的。你知道吗

如果可能的话,我想生成一个XML或JSON文件,但是我可以满足于每页生成一个XML或JSON文件。你知道吗

最好的方法是什么,最好是我可以在mac或linux服务器上运行的东西。你知道吗

URL列表指向外部站点。你知道吗

有什么东西我已经可以使用或一个例子,某处将帮助我。你知道吗

谢谢


Tags: 文件方法标记json网页客户端内容过程
2条回答

这是BeautifulSoup的完美应用,IMHO。下面是一个类似过程的tutorial。这无疑是一个开端。你知道吗

Scrapy是一个很好的爬行和刮削框架。你知道吗

我想您会发现,基于tim cook在his answer中提到的Requests+Beautiful Soup或LXML教程,这将需要更多的学习开销。但是,如果您正在编写大量的刮取/解析逻辑,那么它应该引导您使用一个经过良好分解(可读、可维护)的代码库。你知道吗

所以,如果是一次性的话,我会选择漂亮的汤+要求。如果它会被重复使用,延长和维护一段时间,然后刮将是我的选择。你知道吗

相关问题 更多 >