使用Python抓取网站数据时的性能问题

from pprint import pprint from lxml import etree import itertools import requests def function parsePageUrls(page): return page.xpath('//span[@class="tip"]/a/@href') def function isLastPage(page): if not page.xpath('//a[@rel="next"]'): return True urls = [] for i in itertools.count(1): content = requests.get('http://www.example.com/index.php?page=' + str(i), allow_redirects=False) page = etree.HTML(content.text) urls.extend(parsePageUrls(page)) if isLastPage(page): break pprint urls

1条回答

网友

1楼 · 发布于 2024-06-16 11:06:35

我终于找到了解决办法。问题是我认为我使用的是字符串列表作为树.xpath，但实际上是一个_ElementUnicodeResult-Objects的列表阻止GC清除内存，因为它们包含对其父对象的引用。在

因此，解决方案是将这些ElementUnicodeResult-Objects转换成一个普通字符串，以消除引用。在

以下是帮助我理解问题的来源：http://lxml.de/api/lxml.etree._ElementTree-class.html#xpath

对于所提供的代码，以下内容将其修复：

而不是：

urls.extend(parsePageUrls(page))

必须是：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章