使用Python lxml设置网页解析超时

Question

我正在使用Python的lxml库来解析HTML页面：

import lxml.html

# this might run indefinitely
page = lxml.html.parse('http://stackoverflow.com/')

有没有办法为解析设置超时时间？

Answer 1

看起来它是用 urllib.urlopen 作为打开链接的方式，但最简单的方法就是直接修改默认的超时时间，这样可以让网络连接等得更久。

import socket
timeout = 10
socket.setdefaulttimeout(timeout)

当然，这只是一个简单粗暴的解决办法。

1 个回答