如何用Python Scrapy抓取包含#的URL

-3 投票

1 回答

613 浏览

提问于 2025-04-18 09:39

我正在使用Python的Scrapy库来抓取一个网站。这个网页的链接是 http://www.cuponation.in/myntra-coupons#voucher-13537，它的链接中有一个'#'符号。在抓取这个网页时，作为起始链接的Scrapy会忽略'#'后面的部分。

有没有办法让我用Python的Scrapy抓取包含'#'的完整链接呢？

data extraction web scraping http requests scrapy url-parsing anchor tags web crawler

1 个回答

在抓取网页内容时，通常会忽略掉#后面的部分。这个符号一般是用来指向网页中的一个<div>标签，那个标签的id是'voucher-13537'，就这么简单。所以当你抓取完页面后，可以试着找找类似下面的内容：

<div id="voucher-13537">

这就是你要寻找的东西。

说到解析html文件，如果你还没有使用过的话，我建议你看看BeautifulSoup4这个模块。

回答于 2025-04-18 由 Python大师

分享举报