爬虫和“隐藏”林

2024-05-19 03:22:40 发布

您现在位置：Python中文网/ 问答频道 /正文

1291

网友

男 | 程序猿一只，喜欢编程写python代码。

我正在抓取这样一个网页http://www.allocine.fr/film/fichefilm-215143/similaire/。在

我想检索每部电影的链接。所以我做了一个函数，它可以做如下的事情：

    soup = BeautifulSoup(get_HTML_sim_movies(allocine_id), "html.parser")
    allocine_ids_sim = []

    sim_movie_links = soup.find_all("h2")
    for sim_movie_html in sim_movie_links:
        fiche_film = sim_movie_html.find('a').get('href').split("/")[2]

它适用于所有电影，因为它们的构建方式都相同：

^{pr2}$

但是最后一个有点不同，当我用浏览器检查元素标题而不是使用：class="meta-title-link"时，我有class="xXx meta-title-link"

当我抓取它或查看源代码时，链接就会消失，取而代之的是：data-ac="==L2ZpbG0vZmljaGVmaWxtX2dlbl9jZmlsbT0yMjY2NDQuaHRtbA=="

<h2 class="meta-title">
    <strong>
        <span class="meta-title-link" data-ac="==L2ZpbG0vZmljaGVmaWxtX2dlbl9jZmlsbT0yMjY2NDQuaHRtbA==">Avengers Confidential : La Veuve Noire et Le Punisher</span>
    </strong>
</h2>

你知道如何获得链接吗？为什么会这样？在

Tags： get 电影 title 链接 html link sim h2

1条回答

网友

1楼 · 发布于 2024-05-19 03:22:40

它采用base64格式：

data-ac="==L2ZpbG0vZmljaGVmaWxtX2dlbl9jZmlsbT0yMjY2NDQuaHRtbA=="

去掉前两个字符==，然后

^{pr2}$

它将解码为/film/fichefilm_gen_cfilm=226644.html

爬虫和“隐藏”林

相关问题更多 >

编程相关推荐

热门问题

热门文章

爬虫和“隐藏”林

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >