如何从python源页面中提取javascript创建的隐藏标记 - 问答 - Python中文网

如何从python源页面中提取javascript创建的隐藏标记

2024-06-16 11:07:58 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有一个包含javascript的THIST页面。您可以通过单击show details来查看它们。在

那么如何从url源中提取这些数据呢？在

使用re？我在re中尝试的是：

import urllib
import re
gdoc = urllib.urlopen('ThatURL').read()
scriptlis = re.findall('(?si)<script>(.*?)</script>', gdoc)
print scriptlis

但没有回应。。。在

使用硒？在这种情况下怎么办？在

^{pr2}$

Tags：数据 import re url show script 页面 urllib

2条回答

网友

1楼 · 编辑于 2024-06-16 11:07:58

当页面使用脚本来生成内容时，就很难进行抓取。您需要一个能够在文档上执行脚本的完整虚拟环境，而不是普通的html读取。在

对于python，有^{}。它非常灵活，允许您检查完全呈现的网站，以及执行自己的javascript与页面交互。在

ghost.py是^{}库的python克隆。在我看来，第二个工具更好，但它不是为python编写的。在

网友

2楼 · 编辑于 2024-06-16 11:07:58

你可以试试这个

re.findall('<script.*>.*</script>',url_file)

相关问题更多 >

编程相关推荐

热门问题

热门文章