美体汉字编码

holder = {} url = urllib.urlopen('http://paper.people.com.cn/rmrb/html/2016-05/06/nw.D110000renmrb_20160506_2-01.htm').read() soup = BeautifulSoup(url, 'lxml') head1 = soup.find_all(['h1','h2','h3']) print head1 holder["key"] = head1

2条回答

网友

1楼 · 编辑于 2024-05-15 22:23:59

这可能提供了一个相当简单的解决方案，但不确定它是否能完全满足您的需要，请告诉我：

holder = {}  

url = urllib.urlopen('http://paper.people.com.cn/rmrb/html/2016-05/06/nw.D110000renmrb_20160506_2-01.htm').read()

soup = BeautifulSoup(url, 'lxml')

head1 = soup.find_all(['h1','h2','h3'])

print unicode(head1)

holder["key"] = head1

参考号：Python 2.7 Unicode

网友

2楼 · 编辑于 2024-05-15 22:23:59

使用^{}解码：

In [6]: from bs4 import BeautifulSoup

In [7]: h = """<h3>\u73af\u5883\u6c61\u67d3\u6700\u5c0f\u5316 \u8d44\u6e90\u5229\u7528\u6700\u5927\u5316</h3>, <h1>\u5929\u6d25\u6ee8\u6d77\u65b0\u533a\uff1a\u697c\u5728\u666f\u4e2d \u5382\u5728\u7eff\u4e2d</h1>, <h2></h2>"""

In [8]: soup = BeautifulSoup(h, 'lxml')

In [9]: print(soup.h3.text.decode("unicode-escape"))
环境污染最小化 资源利用最大化

如果您查看数据源，您可以看到数据是utf-8编码的：

^{pr2}$

对于我来说，使用bs4 4.4.1只需解码urllib返回的内容也可以正常工作：

In [1]: from bs4 import BeautifulSoup

In [2]: import urllib

In [3]: url = urllib.urlopen('http://paper.people.com.cn/rmrb/html/2016-05/06/nw.D110000renmrb_20160506_2-01.htm').read()

In [4]: soup = BeautifulSoup(url.decode("utf-8"), 'lxml')

In [5]: print(soup.h3.text)
环境污染最小化 资源利用最大化

当您写入csv时，您需要将数据编码到utf-8 str：

 .decode("unicode-escape").encode("utf-8")

你可以在你的dict中保存数据时进行编码

相关问题更多 >

编程相关推荐

热门问题

热门文章

美体汉字编码

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >