如何去除像 ' 这样的字符,以代替撇号?
可能重复的问题:
在Python中将XML/HTML实体转换为Unicode字符串
我正在尝试用Python抓取一个网站。我导入并使用了urllib2、BeautifulSoup和re模块。
response = urllib2.urlopen(url)
soup = BeautifulSoup(response)
responseString = str(soup)
coarseExpression = re.compile('<div class="sodatext">[\n]*.*[\n]*</div>')
coarseResult = coarseExpression.findall(responseString)
fineExpression = re.compile('<[^>]*>')
fineResult = []
for coarse in coarseResult:
fine = fineExpression.sub('', coarse)
#print(fine)
fineResult.append(fine)
不幸的是,像撇号这样的字符显示得很奇怪,比如变成了 - ' ;。有没有办法避免这种情况?或者有没有简单的方法来替换它们?
1 个回答
5
下面这段关于BeautifulSoup的文档,讲的是实体转换,应该正是你需要的内容:
http://www.crummy.com/software/BeautifulSoup/documentation.html#Entity%20Conversion