我试图获取在检查特定URL的页面源代码时看到的JSON数据。此URL有多个标记,但是这些标记中只有一个具有JSON格式的数据。你知道吗
以下是我当前的实现:
import urllib2
from bs4 import BeautifulSoup
import re
import json
url = "https://www.exampleURL.com"
page = urllib2.urlopen(url)
soup = BeautifulSoup(page, 'html.parser')
scripts = soup.find_all('script')
for script in scripts:
try:
data = json.loads(script)
print("Success")
except Exception:
print("Not Successful")
此实现无法打印成功。我想要的JSON数据的格式如下,但是只有一个脚本标记包含JSON数据,其他所有的都与我无关。你知道吗
<script>
__DATA__ = {........};
</script>
在尝试将
<script>
的内容解析为json之前,需要进行一些数据处理。特别是,您需要删除JavaScript字典前面的__DATA__ =
部分。你知道吗要记住的几件事:
示例
一些可能有助于调试的事情
相关问题 更多 >
编程相关推荐