如何从python源页面中提取javascript创建的隐藏标记

2024-06-16 11:07:58 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个包含javascript的THIST页面。您可以通过单击show details来查看它们。在

那么如何从url源中提取这些数据呢?在

使用re?我在re中尝试的是:

import urllib
import re
gdoc = urllib.urlopen('ThatURL').read()
scriptlis = re.findall('(?si)<script>(.*?)</script>', gdoc)
print scriptlis

但没有回应。。。在

使用硒? 在这种情况下怎么办?在

^{pr2}$

Tags: 数据importreurlshowscript页面urllib
2条回答

当页面使用脚本来生成内容时,就很难进行抓取。您需要一个能够在文档上执行脚本的完整虚拟环境,而不是普通的html读取。在

对于python,有^{}。它非常灵活,允许您检查完全呈现的网站,以及执行自己的javascript与页面交互。在

ghost.py^{}库的python克隆。在我看来,第二个工具更好,但它不是为python编写的。在

你可以试试这个

re.findall('<script.*>.*</script>',url_file)

相关问题 更多 >