我在网站上运行这个代码:尤文图斯.com。我可以解析标题
from urllib import urlopen
import re
webpage = urlopen('http://juventus.com').read()
patFinderTitle = re.compile('<title>(.*)</title>')
findPatTitle = re.findall(patFinderTitle, webpage)
print findPatTitle
输出为:
^{pr2}$但如果在另一个网站上尝试相同的代码,返回的结果是什么都不是
from urllib import urlopen
import re
webpage = urlopen('http://bp1.shoguto.com/detail.php?userg=hhchpxqhacciliq').read()
patFinderTitle = re.compile('<title>(.*)</title>')
findPatTitle = re.findall(patFinderTitle, webpage)
print findPatTitle
有人知道为什么吗?在
这是因为urlopen链接包含javascript重定向,它只是不包含title标记。在
它包含以下内容:
另外,我可能错了,但是如果我没记错的话,你不能用urlopen来运行javascript代码。你需要一个不同的python模块,现在不记得它的名字了,但是如果我记得有一个模块可以运行javascript代码,但是需要一个gui和一个有效的浏览器来使用,比如firefox。。。在
http://bp1.shoguto.com/detail.php?userg=hhchpxqhacciliq
的内容是:(修改以便于阅读)没有title标记;没有匹配的正则表达式。在
使用selenium计算javascript:
^{pr2}$相关问题 更多 >
编程相关推荐