使用Scrapy获取页面，执行JS并提取variab

<html> <head> <title> Test </title> </head> <body> <p> This is a text </p> <script type="text/javascript"> var myJSON = { a: "a", b: 42 } </script> </body> </html>

1条回答

网友

1楼 · 发布于 2024-04-19 20:34:32

我以前也遇到过类似的问题，我通过使用（基于您的示例HTML文件）提取脚本标记中的文本来解决它：

response.xpath('//script/text()')

之后，我使用正则表达式以JSON格式提取所需的数据。因此，使用上面的选择器和您的示例HTML

pattern = r'i-suck-at-regular-expressions'
json_data = response.xpath('//script/text()').re_first(pattern)

接下来，您应该能够使用json库将数据作为python字典加载，如下所示：

json.loads(json_data)

它应该返回类似于：

{"a": "a", "b": 42}

编程相关推荐

java为什么当我推送更少的数据时堆栈会溢出？
JavaBridge。war+tomcat+phpcgi+glibc_2.7缺少库问题
java获取面板的gridbag约束
基于Web的java应用程序模拟远程处理PLC
默认情况下，javaf:ajax rendered=false
python解决此类问题的最佳方法是什么？（谷歌Foobar 3级）
java获取记录所在的mysql表的名称
java在添加Pulsar appender时收到log4j2的“未找到appender”错误
java子查询结果和一个HQL中的所有表字段
用于读取库代码中文件的java文件路径

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用Scrapy获取页面，执行JS并提取variab

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >