我想从某个网页(在线书店)获取一些数据。在
网页如下:http://www.rob389.com/dp/tr/11/9789754681383
我想分析包含以下字符串的<script>
部分:
tOBJ.DATA[0].MMM00_ITEM_CODE="9789754681383"
其中9789754681383是ISBN编号。在
我首先需要找到并提取正确的<script>
部分。在
然后,我想遍历tOBJ.数据[0]对象并将其转换为如下字典:
^{pr2}$等等。。。在
我想用python可以用很少的行来完成,但是我无法理解。在
有什么建议吗?在
提前谢谢。在
附言:欢迎任何其他解析建议。在
这个页面是如此的无效,以至于所有使用}后跟{}等的普通方法都失败了。看来你最好的选择是:
parse()
from{我几乎总是推荐使用beauthoulsoup—但是,这个页面似乎有一个“<;!>;'标记已下移一半,这会杀死解析器。所以,
re
去营救。。。在这就产生了一个132个词条的字典,包括
^{pr2}$如果要将其限制为仅限于以“MMM00”开头的键,请尝试
它只返回15个项目。在
您可以使用BeautifulSoup和一些代码来完成:
这应该能解决问题。像这样:
^{pr2}$相关问题 更多 >
编程相关推荐