如何去除像 ' 这样的字符,以代替撇号?

6 投票
1 回答
39379 浏览
提问于 2025-04-17 08:51

可能重复的问题:
在Python中将XML/HTML实体转换为Unicode字符串

我正在尝试用Python抓取一个网站。我导入并使用了urllib2、BeautifulSoup和re模块。

response = urllib2.urlopen(url)
soup = BeautifulSoup(response)
responseString = str(soup)

coarseExpression = re.compile('<div class="sodatext">[\n]*.*[\n]*</div>')
coarseResult = coarseExpression.findall(responseString)

fineExpression = re.compile('<[^>]*>')
fineResult = []

for coarse in coarseResult:
    fine = fineExpression.sub('', coarse) 
    #print(fine)
    fineResult.append(fine)

不幸的是,像撇号这样的字符显示得很奇怪,比如变成了 - &#x27 ;。有没有办法避免这种情况?或者有没有简单的方法来替换它们?

1 个回答

5

下面这段关于BeautifulSoup的文档,讲的是实体转换,应该正是你需要的内容:

http://www.crummy.com/software/BeautifulSoup/documentation.html#Entity%20Conversion

撰写回答