如何用Python Scrapy抓取包含#的URL
我正在使用Python的Scrapy库来抓取一个网站。这个网页的链接是 http://www.cuponation.in/myntra-coupons#voucher-13537,它的链接中有一个'#'符号。在抓取这个网页时,作为起始链接的Scrapy会忽略'#'后面的部分。
有没有办法让我用Python的Scrapy抓取包含'#'的完整链接呢?
1 个回答
3
在抓取网页内容时,通常会忽略掉#
后面的部分。这个符号一般是用来指向网页中的一个<div>
标签,那个标签的id
是'voucher-13537',就这么简单。所以当你抓取完页面后,可以试着找找类似下面的内容:
<div id="voucher-13537">
这就是你要寻找的东西。
说到解析html文件,如果你还没有使用过的话,我建议你看看BeautifulSoup4
这个模块。