Python中的特殊HTML字符转换为ASCII
我想把在浏览网页时看到的一些特殊字符转换成ASCII格式。我尝试了很多方法,但就是搞不定。下面我会给出一些例子,这些例子是存储在Python中的一个字符串。我不知道网页当前的编码是什么,但我想把它转换成ASCII格式。
Apaydın Ünal > want this to Apaydin Unal
Íñigo Martínez > want this to Inigo Martinez
Üstünel > want this to Ustunel
谁能帮帮我?
补充说明:谢谢,我忘了说。我使用的是Python 2.7
1 个回答
1
试试这个链接:https://pypi.python.org/pypi/Unidecode。
>>> from unidecode import unidecode
>>> unidecode(u'ko\u017eu\u0161\u010dek')
'kozuscek'
如果你想知道怎么检测编码,可以看看这个问题:在Python中如何确定文本的编码。