如何从这个页面的源代码中提取“tier1Category”的值?
https://www.walgreens.com/store/c/walgreens-wal-zyr-24-hour-allergy-tablets/ID=prod6205762-product
soup.find('script')
只返回源代码的一个子集,下面返回该代码中的另一个源代码。你知道吗
json.loads(soup.find("script", type="application/ld+json").text)
Tags:
我想您可以使用一个id。我假设第1层位于导航树中的
shop
之后。否则,我在脚本标记中看不到该值。我在一个普通的脚本(没有script[type=“application/ld+json”])标记中看到了它,但是对于第1层有很多regex匹配项下面是我用来获取输出的步骤
使用查找所有并获得第10个脚本标记。此脚本标记包含
tier1Category
值。获取从第一次出现
{
到最后一次出现;
的脚本文本。这将为我们提供一个合适的json文本。使用
加载文本json.loads
理解json的结构,找到如何获得
tier1Category
值。代码:
输出:
Bitto和我对此有类似的方法,但是我不想依赖于知道哪个脚本包含匹配模式,也不想知道脚本的结构。你知道吗
相关问题 更多 >
编程相关推荐