用Python表达式删除HTML中的React标记

<span data-reactid="57">Price/Book</span> (mrq)<sup aria-label="KS_HELP_SUP_undefined" data-reactid="60"></sup></td><td class="Fz(s) Fw(500) Ta(end)" data-reactid="61">8.36</td>

3条回答

网友

1楼 · 编辑于 2024-04-26 00:25:20

如果您想用python浏览HTML文档，那么使用一个名为beautifulsoup4的库更简单、更实用。你知道吗

你可以从：https://pypi.python.org/pypi/beautifulsoup4下载，或者，您可以使用“Pip”在命令行中编写pip install beautifulsoup4来下载它。而不是将其包含到项目from bs4 import BeautifulSoup

现在你应该从中提取文本，如果你想这样做的话。你知道吗

from bs4 import BeautifulSoup

    with open "text.txt" as text:
    str = '<span data-reactid="57">Price/Book</span><!  react-text: 58  > <!  /react-text  ><!  react-text: 59  >(mrq)<!  /react-text  ><sup aria-label="KS_HELP_SUP_undefined" data-reactid="60"></sup></td><td class="Fz(s) Fw(500) Ta(end)" data-reactid="61">8.36</td>'
    soup = BeautifulSoup(str, 'lxml')
    soup = soup.get_text()
    text.write(str(soup))

网友

2楼 · 编辑于 2024-04-26 00:25:20

您只需要包含react标记中可能出现的最大位数。另外，要删除react的两个实例（有数字和没有数字），可以添加|以尝试匹配其中一个：

cleandUpCode = re.sub(r'<!  react-text: \d{1,3}  >|<!  /react-text  >', '', sourceCode)

输出：

<span data-reactid="57">Price/Book</span> (mrq)
<sup aria-label="KS_HELP_SUP_undefined" data-reactid="60">
 </sup></td><td class="Fz(s) Fw(500) Ta(end)" data-reactid="61">8.36</td>

网友

3楼 · 编辑于 2024-04-26 00:25:20

将代码的\d{1,2,3}更改为\d{1,3}。量词{1,3}重复前面的项目1到3次。你知道吗

Regex Quantifier: http://www.rexegg.com/regex-quickstart.html#quantifiers

检查此项：Python Regex Demo

更新： 如果要删除除特定的react-text之外的所有<! [^>]*/?react-text[^>]* >，请改用：<! [^>]*/?react-text[^>]* >。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章