从URL获取内容的自动化过程 - 问答 - Python中文网

从URL获取内容的自动化过程

2024-04-20 16:20:15 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有一个巨大的名单，从一个客户端的网址，我需要通过运行，以便我可以从网页的内容。此内容位于页面中的不同标记中。你知道吗

我期待着创建一个自动化的服务来做到这一点，我可以离开运行完成。我希望自动过程加载每个页面并从特定的html标记中获取内容，然后处理一些这些内容以确保html是正确的。你知道吗

如果可能的话，我想生成一个XML或JSON文件，但是我可以满足于每页生成一个XML或JSON文件。你知道吗

最好的方法是什么，最好是我可以在mac或linux服务器上运行的东西。你知道吗

URL列表指向外部站点。你知道吗

有什么东西我已经可以使用或一个例子，某处将帮助我。你知道吗

谢谢

Tags：文件方法标记 json 网页客户端内容过程

2条回答

网友

1楼 · 编辑于 2024-04-20 16:20:15

这是BeautifulSoup的完美应用，IMHO。下面是一个类似过程的tutorial。这无疑是一个开端。你知道吗

网友

2楼 · 编辑于 2024-04-20 16:20:15

Scrapy是一个很好的爬行和刮削框架。你知道吗

我想您会发现，基于tim cook在his answer中提到的Requests+Beautiful Soup或LXML教程，这将需要更多的学习开销。但是，如果您正在编写大量的刮取/解析逻辑，那么它应该引导您使用一个经过良好分解（可读、可维护）的代码库。你知道吗

所以，如果是一次性的话，我会选择漂亮的汤+要求。如果它会被重复使用，延长和维护一段时间，然后刮将是我的选择。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章