我有一个巨大的名单,从一个客户端的网址,我需要通过运行,以便我可以从网页的内容。此内容位于页面中的不同标记中。你知道吗
我期待着创建一个自动化的服务来做到这一点,我可以离开运行完成。 我希望自动过程加载每个页面并从特定的html标记中获取内容,然后处理一些这些内容以确保html是正确的。你知道吗
如果可能的话,我想生成一个XML或JSON文件,但是我可以满足于每页生成一个XML或JSON文件。你知道吗
最好的方法是什么,最好是我可以在mac或linux服务器上运行的东西。你知道吗
URL列表指向外部站点。你知道吗
有什么东西我已经可以使用或一个例子,某处将帮助我。你知道吗
谢谢
这是BeautifulSoup的完美应用,IMHO。下面是一个类似过程的tutorial。这无疑是一个开端。你知道吗
Scrapy是一个很好的爬行和刮削框架。你知道吗
我想您会发现,基于tim cook在his answer中提到的Requests+Beautiful Soup或LXML教程,这将需要更多的学习开销。但是,如果您正在编写大量的刮取/解析逻辑,那么它应该引导您使用一个经过良好分解(可读、可维护)的代码库。你知道吗
所以,如果是一次性的话,我会选择漂亮的汤+要求。如果它会被重复使用,延长和维护一段时间,然后刮将是我的选择。你知道吗
相关问题 更多 >
编程相关推荐