抓取多个职位列表站点以提取职位描述、位置

2024-04-16 09:01:01 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个包含求职网站列表的文本文件,比如indeed.comcareerbuilder.com等。 我需要使用Python搜索文本文件中列出的每个站点,以找到给定关键字的作业。 问题是,每个网站都有自己的布局。我需要用相同的程序来抓取它们,而不是为列出的每个站点编写单独的代码。 有人能帮我吗??在


Tags: 代码程序com列表站点网站作业关键字
2条回答

抓取需要一些搜索参数。当我用来抓取网站时,我使用了一个search between函数,发现了用于网站上不同内容(名称、编号、地址)的独特html包装器。它们可能存储为:

<div class="userName" id="userName">This is a username</div>

因此,我将使用一个函数来搜索html的第一部分,并以搜索结束div结束,并返回中间的内容。在

然而,不同的网站不太可能有相同的html结构。所以你必须为每一个你需要抓取的不同网站写下规则。在

希望这有帮助

抱歉,据我所知,没有官方的网络垃圾软件也是出于同样的原因。你必须研究页面布局并为其编写合适的程序。在网络抓取中没有一个解决方案适合所有人。即使是在regex做个坏蛋也没什么用。我以前也经历过类似的情况

相关问题 更多 >