查找包含unicode glyph的元素

2024-05-13 05:24:04 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用Beautiful Soup来查找具有特定unicode glyph(http://en.wikipedia.org/wiki/Miscellaneous_Symbols)的元素。我有一个HTTML元素,看起来像:

<li>&#9733; mytext</li>

我试过:

# pattern = re.compile(r'&#9733)
pattern = re.compile(u'&#9733')
# pattern = re.compile('U+2605')
soup.find_all('li', text=pattern)

但每次我都会得到一张空名单。我做错什么了?你知道吗


Tags: orgrehttp元素wikiunicodeliwikipedia
1条回答
网友
1楼 · 发布于 2024-05-13 05:24:04

您需要提供Unicode代码点:

pattern = re.compile(u'\u2605')

参见Python string literal documentation。你知道吗

演示:

>>> from bs4 import BeautifulSoup
>>> import re
>>> soup = BeautifulSoup('<li>&#9733; mytext</li>')
>>> pattern = re.compile(u'\u2605')
>>> soup.find_all('li', text=pattern)
[<li>★ mytext</li>]

相关问题 更多 >