如何用Python Scrapy抓取包含#的URL

-3 投票
1 回答
613 浏览
提问于 2025-04-18 09:39

我正在使用Python的Scrapy库来抓取一个网站。这个网页的链接是 http://www.cuponation.in/myntra-coupons#voucher-13537,它的链接中有一个'#'符号。在抓取这个网页时,作为起始链接的Scrapy会忽略'#'后面的部分。

有没有办法让我用Python的Scrapy抓取包含'#'的完整链接呢?

1 个回答

3

在抓取网页内容时,通常会忽略掉#后面的部分。这个符号一般是用来指向网页中的一个<div>标签,那个标签的id是'voucher-13537',就这么简单。所以当你抓取完页面后,可以试着找找类似下面的内容:

<div id="voucher-13537"> 

这就是你要寻找的东西。

说到解析html文件,如果你还没有使用过的话,我建议你看看BeautifulSoup4这个模块。

撰写回答