确定从xpath刮取的内容的编码。转换为Unicode

2024-04-24 09:34:09 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用firefoxxpath提取器从这个网站上提取了以下代码片段:http://www.zdic.net/z/19/js/5DCD.htm

我要找的部分是丨フ丨ノ一丨ノ丶フノ一ノ丨フ一一ノフフ丶

这个xpath extractor add on给了我以下id('z_i_t2_bis')

我用这个命令把它输入到scrapy shellresponse.selector.xpath("id('z_i_t2_bis')").extract()

它返回了这个:

[u'<span id="z_i_t2_bis" title="\u7ad6\u6298\u7ad6\u6487\u6a2a\u7ad6\u6487\u637a\u6298\u6487\u6a2a\u6487\u7ad6\u6298\u6a2a\u6a2a\u6487\u6298\u6298\u637a">\u4e28\u30d5\u4e28\u30ce\u4e00\u4e28\u30ce\u4e36\u30d5\u30ce\u4e00\u30ce\u4e28\u30d5\u4e00\u4e00\u30ce\u30d5\u30d5\u4e36</span>']

我怎么知道这是不是我想要的?你知道吗

它似乎是为HTML编码的,有没有办法把它放回unicode?你知道吗


Tags: idxpathspant2bisu4e00u6298u637a
1条回答
网友
1楼 · 发布于 2024-04-24 09:34:09

已经是unicode了。这只是一个逃逸的陈述。 因此,您可以直接使用“in”操作符检查您的模式:

pattern = u'丨フ丨ノ一丨ノ丶フノ一ノ丨フ一一ノフフ丶'
result = [u'<span id="z_i_t2_bis" title="\u7ad6\u6298\u7ad6\u6487\u6a2a\u7ad6\u6487\u637a\u6298\u6487\u6a2a\u6487\u7ad6\u6298\u6a2a\u6a2a\u6487\u6298\u6298\u637a">\u4e28\u30d5\u4e28\u30ce\u4e00\u4e28\u30ce\u4e36\u30d5\u30ce\u4e00\u30ce\u4e28\u30d5\u4e00\u4e00\u30ce\u30d5\u30d5\u4e36</span>']

if pattern in result[0]:
    print('found')

相关问题 更多 >