我有一个包含javascript的THIST页面。您可以通过单击show details
来查看它们。在
那么如何从url源中提取这些数据呢?在
使用re
?我在re中尝试的是:
import urllib
import re
gdoc = urllib.urlopen('ThatURL').read()
scriptlis = re.findall('(?si)<script>(.*?)</script>', gdoc)
print scriptlis
但没有回应。。。在
使用硒?
在这种情况下怎么办?在
^{pr2}$
Tags:
当页面使用脚本来生成内容时,就很难进行抓取。您需要一个能够在文档上执行脚本的完整虚拟环境,而不是普通的html读取。在
对于python,有^{} 。它非常灵活,允许您检查完全呈现的网站,以及执行自己的javascript与页面交互。在
ghost.py
是^{你可以试试这个
相关问题 更多 >
编程相关推荐