python中的Web抓取urlopen

2024-03-28 16:31:09 发布

您现在位置:Python中文网/ 问答频道 /正文

我正试图从以下网站获取数据: http://www.boursorama.com/includes/cours/last_transactions.phtml?symbole=1xEURUS

似乎urlopen没有得到html代码,我不明白为什么。 就像是:

html = urllib.request.urlopen("http://www.boursorama.com/includes/cours/last_transactions.phtml?symbole=1xEURUS")
print (html)

我的代码是对的,我得到了其他网页的html源代码,但它似乎无法识别这个地址。

上面印着:b''

也许另一个图书馆更合适?为什么urlopen不返回网页的html代码? 救命谢谢!


Tags: 代码comhttp网页htmlwwwurlopenlast
3条回答

我已经用httplib2和curl测试了您的URL。两者都很好:

URL = "http://www.boursorama.com/includes/cours/last_transactions.phtml?symbole=1xEURUS"
h = httplib2.Http()
resp, content = h.request(URL, "GET")
print(content)

所以对我来说,要么urllib.request中有一个bug,要么发生了非常奇怪的客户机-服务器交互。

我怀疑发生的是服务器在发送压缩数据时没有告诉您它正在这样做。Python的标准HTTP库不能处理压缩格式。
我建议使用httplib2,它可以处理压缩格式(通常比urllib好得多)。

import httplib2
folder = httplib2.Http('.cache')
response, content = folder.request("http://www.boursorama.com/includes/cours/last_transactions.phtml?symbole=1xEURUS")

print(response)显示服务器的响应:
{'status':'200','content length':'7787','x-sid':'26,E','content language':'fr','set cookie':'PHPSESSIONID=ed45f761542752317963ab4762ec604f;path=/;domain=.www.boursorama.com','expires':'Thu,1981年11月19日08:52:00 GMT','vary':'Accept Encoding,User Agent','server':'nginx','connection':'keep alive','-content encoding':'gzip','pragma':'no cache','cache control':'no store,no cache,must revalidate,post check=0,pre check=0','date':'Tue,2011年8月23日10:26:46 GMT','content type':'text/html;charset=ISO-8859-1','content location':'http://www.boursorama.com/includes/cours/last懔transactions.phtml?符号=1xEURUS'}

虽然这不能确认它是压缩的(毕竟,我们现在告诉服务器我们可以处理压缩),但它确实给理论增加了一些分量。

你猜,真正的内容存在于content。简单地看一下,就可以看出它在工作(我只需要粘贴一点):
b'<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"\n\t"http://

Edit:是的,这确实创建了一个名为.cache的文件夹;我发现,当涉及到httplib2时,使用文件夹总是更好的,并且您可以在以后删除该文件夹。

我个人认为:

# Python 2.7

import urllib

url = 'http://www.boursorama.com/includes/cours/last_transactions.phtml?symbole=1xEURUS'
sock = urllib.urlopen(url)
content = sock.read() 
sock.close()

print content

我想你应该去法国,。。欢迎访问stackoverflow.com!

更新1

实际上,我现在更喜欢使用以下代码,因为它更快:

# Python 2.7

import httplib

conn = httplib.HTTPConnection(host='www.boursorama.com',timeout=30)

req = '/includes/cours/last_transactions.phtml?symbole=1xEURUS'

try:
    conn.request('GET',req)
except:
     print 'echec de connexion'

content = conn.getresponse().read()

print content

在这段代码中将httplib更改为http.client应该足以使其适应Python 3。

是的。

我确认,通过这两个代码,我获得了我看到您感兴趣的数据的源代码:

        <td class="L20" width="33%" align="center">11:57:44</td>

        <td class="L20" width="33%" align="center">1.4486</td>

        <td class="L20" width="33%" align="center">0</td>

</tr>

                                        <tr>

        <td  width="33%" align="center">11:57:43</td>

        <td  width="33%" align="center">1.4486</td>

        <td  width="33%" align="center">0</td>

</tr>

更新2

将以下代码片段添加到上述代码将允许您提取所需的数据:

for i,line in enumerate(content.splitlines(True)):
    print str(i)+' '+repr(line)

print '\n\n'


import re

regx = re.compile('\t\t\t\t\t\t<td class="(?:gras )?L20" width="33%" align="center">(\d\d:\d\d:\d\d)</td>\r\n'
                  '\t\t\t\t\t\t<td class="(?:gras )?L20" width="33%" align="center">([\d.]+)</td>\r\n'
                  '\t\t\t\t\t\t<td class="(?:gras )?L20" width="33%" align="center">(\d+)</td>\r\n')

print regx.findall(content)

结果(仅结尾)

.......................................
.......................................
.......................................
.......................................
98 'window.config.graphics = {};\n'
99 'window.config.accordions = {};\n'
100 '\n'
101 "window.addEvent('domready', function(){\n"
102 '});\n'
103 '</script>\n'
104 '<script type="text/javascript">\n'
105 '\t\t\t\tsas_tmstp = Math.round(Math.random()*10000000000);\n'
106 '\t\t\t\tsas_pageid = "177/(includes/cours/last_transactions)"; // Page : boursorama.com/smartad_test\n'
107 '\t\t\t\tvar sas_formatids = "8968";\n'
108 '\t\t\t\tsas_target = "symb=1xEURUS#"; // TargetingArray\n'
109 '\t\t\t\tdocument.write("<scr"+"ipt src=\\"http://ads.boursorama.com/call2/pubjall/" + sas_pageid + "/" + sas_formatids + "/" + sas_tmstp + "/" + escape(sas_target) + "?\\"></scr"+"ipt>");\t\t\t\t\n'
110 '\t\t\t</script><div id="_smart1"><script language="javascript">sas_script(1,8968);</script></div><script type="text/javascript">\r\n'
111 "\twindow.addEvent('domready', function(){\r\n"
112 'sas_move(1,8968);\t});\r\n'
113 '</script>\n'
114 '<script type="text/javascript">\n'
115 'var _gaq = _gaq || [];\n'
116 "_gaq.push(['_setAccount', 'UA-1623710-1']);\n"
117 "_gaq.push(['_setDomainName', 'www.boursorama.com']);\n"
118 "_gaq.push(['_setCustomVar', 1, 'segment', 'WEB-VISITOR']);\n"
119 "_gaq.push(['_setCustomVar', 4, 'version', '18']);\n"
120 "_gaq.push(['_trackPageLoadTime']);\n"
121 "_gaq.push(['_trackPageview']);\n"
122 '(function() {\n'
123 "var ga = document.createElement('script'); ga.type = 'text/javascript'; ga.async = true;\n"
124 "ga.src = ('https:' == document.location.protocol ? 'https://ssl' : 'http://www') + '.google-analytics.com/ga.js';\n"
125 "var s = document.getElementsByTagName('script')[0]; s.parentNode.insertBefore(ga, s);\n"
126 '})();\n'
127 '</script>\n'
128 '</body>\n'
129 '</html>'



[('12:25:36', '1.4478', '0'), ('12:25:33', '1.4478', '0'), ('12:25:31', '1.4478', '0'), ('12:25:30', '1.4478', '0'), ('12:25:30', '1.4478', '0'), ('12:25:29', '1.4478', '0')]

我希望你不要打算“玩”外汇交易:这是一个最好的方式,以迅速宽松货币。

更新3

对不起!我忘了你和Python3在一起。所以我认为您必须这样定义regex:

regx = re.compile(b'\t\t\t\t\t......)

也就是说,在字符串前面加上b,否则会出现类似于this question的错误

相关问题 更多 >