如何在读取的HTML文档中转换unicode转义的<和>?

2 投票

1 回答

1579 浏览

提问于 2025-04-16 20:21

当我用 urllib2 打开一些（但不是所有）HTML文件时，发现有些文件里的文本充满了很多反斜杠和unicode 003c字符串。我把这些文本放进 BeautifulSoup 里，但用 findAll() 找东西时遇到了麻烦，我现在觉得这可能是因为这些unicode字符串。

这到底是怎么回事，我该怎么去掉这些东西呢？

像 soup.prettify() 这样的办法没有效果。

这里有一段示例代码（这段代码来自一个Facebook个人资料）

\\u003cdiv class=\\"pas status fcg\\">Loading...\\u003c\\/div>
\\u003c\\/div>\\u003cdiv class=\\"uiTypeaheadView fbChatBuddyListTypeaheadView dark hidden_elem\\" id=\\"u971289_14\\">\\u003c\\/div>
\\u003c\\/div>\\u003c\\/div>\\u003cdiv class=\\"fbNubFlyoutFooter\\">
\\u003cdiv class=\\"uiTypeahead uiClearableTypeahead fbChatTypeahead\\" id=\\"u971289_15\\">
\\u003cdiv class=\\"wrap\\">\\u003clabel class=\\"clear uiCloseButton\\" for=\\"u971291_21\\">

同样的HTML页面在“查看源代码”窗口里看起来正常。

补充说明：这是生成那些文本的代码。奇怪的是，我从其他HTML页面没有得到这种输出。请注意，我把用户名和密码替换成了 USERNAME 和 PASSWORD。你可以在自己的FB个人资料上试试，如果把这两个替换掉的话。

fbusername = "USERNAME@gmail.com"
fbpassword = "PASSWORD"
cookiefile = "facebook.cookies"

cj = cookielib.MozillaCookieJar(cookiefile)
if os.access(cookiefile, os.F_OK):
    cf.load()

opener = urllib2.build_opener(
    urllib2.HTTPRedirectHandler(),
    urllib2.HTTPHandler(debuglevel=0),
    urllib2.HTTPSHandler(debuglevel=0),
    urllib2.HTTPCookieProcessor(cj)
)

opener.addheaders = [('User-agent','Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_7; en-us) AppleWebKit/533.21.1 (KHTML, like Gecko) Version/5.0.5 Safari/533.21.1'),('Referer','http://www.facebook.com/')]

def facebooklogin():
    logindata = urllib.urlencode({
        'email' : fbusername,
        'pass' : fbpassword,
    })

    response = opener.open("https://login.facebook.com/login.php",logindata)
    return ''.join(response.readlines())


print "Logging in to Facebook...\n"
facebooklogin()
facebooklogin()
print "Successful.\n"

fetchURL = 'http://www.facebook.com/USERNAME?ref=profile&v=info'

f = opener.open(fetchURL)
fba = f.read()
f.close()
soup = BeautifulSoup(fba)
print soup

字符串处理 unicode urllib2 数据清洗 HTML beautifulsoup 网页解析反斜杠

1 个回答

这个 u""" 的写法是用于 Python 2 的。在 Python 3 中，你可以直接省略这个 u。

>>> a=u"""\\u003cdiv class=\\"pas status fcg\\">Loading...\\u003c\\/div>
... \\u003c\\/div>\\u003cdiv class=\\"uiTypeaheadView fbChatBuddyListTypeaheadView dark hidden_elem\\" id=\\"u971289_14\\">\\u003c\\/div>
... \\u003c\\/div>\\u003c\\/div>\\u003cdiv class=\\"fbNubFlyoutFooter\\">
... \\u003cdiv class=\\"uiTypeahead uiClearableTypeahead fbChatTypeahead\\" id=\\"u971289_15\\">
... \\u003cdiv class=\\"wrap\\">\\u003clabel class=\\"clear uiCloseButton\\" for=\\"u971291_21\\">
... """
>>> print(a.decode('unicode_escape')).replace('\\/', '/')
<div class="pas status fcg">Loading...<\/div>
<\/div><div class="uiTypeaheadView fbChatBuddyListTypeaheadView dark hidden_elem" id="u971289_14"><\/div>
<\/div><\/div><div class="fbNubFlyoutFooter">
<div class="uiTypeahead uiClearableTypeahead fbChatTypeahead" id="u971289_15">
<div class="wrap"><label class="clear uiCloseButton" for="u971291_21">

希望这能帮到你。如果没有，请在你的问题中提供更清晰的信息。

编辑：建议的答案现在也把 \/ 改成了 /。

回答于 2025-04-16 由 Python大师

分享举报

如何在读取的HTML文档中转换unicode转义的<和>?

1 个回答

撰写回答