使用BeautifulSoup在抓取网站时显示符号

2024-04-28 18:13:50 发布

您现在位置:Python中文网/ 问答频道 /正文

我是新来的网页刮。我试图解决一个关于符号如何显示的问题。BeautifulSoup是用来刮网站,但有一个问题是如何刮符号。你知道吗

这是工作代码:

soup = BeautifulSoup(message['content'], 'lxml') 
content = (None, soup2markup(soup.find(name='body')))

def soup2markup(self, soup: Any) -> List[Any]:
    for element in soup:
        if (element.name == 'span' and element.attrs and
            ('katex-display' in element.attrs.get('class', []) or
             'katex' in element.attrs.get('class', []))):
            markup.append(element.text)
    return markup

打印markup,即显示π等符号(其katex文本为$$\pi$$)的刮取文本,给我

π\piπ

而不仅仅是

π。你知道吗

为什么会发生这种情况?我该如何解决?你知道吗

<div class="message_content rendered_markdown">
<p>
<span class="katex">
<span class="katex-mathml">
<math>
<semantics>
<mrow>
<mi>π</mi>
</mrow>
<annotation encoding="application/x-tex">\pi</annotation>
</semantics>
</math>
</span>
<span aria-hidden="true" class="katex-html">
<span class="strut" style="height:0.43056em;">
</span>
<span class="strut bottom" style="height:0.43056em;vertical-align:0em;">
</span>
<span class="base">
<span class="mord mathit" style="margin-right:0.03588em;">π</span>
</span>
</span>
</span>
</p>
</div>

Tags: inmessagestylepi符号elementcontentkatex
1条回答
网友
1楼 · 发布于 2024-04-28 18:13:50

我不能直接重现你的问题-你的代码不适合我。然而,鉴于这个跨度,s

<span class="katex-mathml">
<math>
<semantics>
<mrow>
<mi>π</mi>
</mrow>
<annotation encoding="application/x-tex">\pi</annotation>
</semantics>
</math>
</span>

我们可以看到,访问其text属性会显示问题:

>>> s.text
'\n\n\n\nπ\n\n\\pi\n\n\n'
>>> print(s.text.replace('\n', ''))
π\pi

因此,解决方案是应用更精确的搜索条件,例如:

>>> m = s.find(name='mi')
>>> m
<mi>π</mi>
>>> m.text
'π'

相关问题 更多 >