Python、XML和233类型编码

2条回答

网友

1楼 · 编辑于 2024-04-23 12:21:01

如果只想将HTML实体解析为其unicode等效实体：

>>> import HTMLParser
>>> parser = HTMLParser.HTMLParser()
>>> parser.unescape('&#233;')
u'\xe9'
>>> print parser.unescape('&#233;')
é

对于python2.x，对于3.x，导入是import html.parser

网友

2楼 · 编辑于 2024-04-23 12:21:01

使用这个QandA和另一个QandA的提示，我有一个似乎有效的解决方案。它获取整个文档并从文档中删除所有html实体。在

import re
import HTMLParser

regexp = "&.+?;" 
list_of_html = re.findall(regexp, page) #finds all html entites in page
for e in list_of_html:
    h = HTMLParser.HTMLParser()
    unescaped = h.unescape(e) #finds the unescaped value of the html entity
    page = page.replace(e, unescaped) #replaces html entity with unescaped value

编程相关推荐

java模拟构造函数以查看它是否引发异常
java Javascript类和DWR
需要在Amazon Java SDK的putObject（）之后关闭InputStream吗？
在java中，摆动鼠标输入fontsize缩减的事件
使用java解析csv，然后保存在2D数组中
Postgres的java转储在HyperSQL中不起作用
java将记录写入文件的新行
Java，映射一个json
java快速排序。处理副本
Java编程，如何让一个对象在不调用函数的情况下返回一个值？

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python、XML和233类型编码

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >