如何使用特殊字符刮取数据？

def parse(self, response): hxs = HtmlXPathSelector(response) sites = hxs.select('//h1') links = hxs.select('//div[@class="pp-title"]') #sites = hxs.select('//div[@id="yt-lockup-content"] ') items = [] for site in links: item = DmozItem() item['title'] = site.select('a/h1/text()').extract() item['link'] = site.select('a/@href').extract() items.append(item) return items

[[{"link": ["http://www.ponudadana.hr/Planinarski-dom-Kalnik-2-dana-s-doruckom-za-dvoje-za-149kn-umjesto-300kn-7482_1"], "title": ["Planinarski dom Kalnik - 2 dana s doru\u010dkom za dvoje za 149kn umjesto 300kn!"]},

1条回答

网友

1楼 · 发布于 2024-05-23 17:32:51

无论是JSON还是Python unicode字符串文本，\u010d表示č。即使它在JSON中是这样表示的，当您解码它时，它将显示为一个正确的字母č

>>> import json
>>> obj = json.loads("""{"link": ["http://www.ponudadana.hr/Planinarski-dom-Kalnik-2-dana-s-doruckom-za-dvoje-za-149kn-umjesto-300kn-7482_1"], "title": ["Planinarski dom Kalnik - 2 dana s doru\u010dkom za dvoje za 149kn umjesto 300kn!"]}""")
>>> obj['title']
[u'Planinarski dom Kalnik - 2 dana s doru\u010dkom za dvoje za 149kn umjesto 300kn!']
>>> print obj['title'][0]
Planinarski dom Kalnik - 2 dana s doručkom za dvoje za 149kn umjesto 300kn!

Python字符串也有同样的应用程序

>>> u"česnakas"
u'\u010desnakas'
>>> print u"česnakas"
česnakas

相关问题更多 >

编程相关推荐

热门问题

热门文章