如何为以下场景(HTML)创建正则表达式?

2024-04-25 23:28:50 发布

您现在位置:Python中文网/ 问答频道 /正文

我在HTML页面中有一些已知的格式,我需要解析标记的内容

<TR>
    <TD align=center>Reissue of:</TD>
    <TD align=center> **VALUES_TO_FIND** </TD>
    <TD> </TD> 
</TR>
<TR>
    <TD align=center> </TD>
</TR>

基本上,我认为我可以将HTML与正则表达式连接起来,正则表达式将匹配我要查找的spot中的任何内容。你知道吗

我知道文本前后的值总是一样的。我怎样才能用RE找到它?(我正在处理几个案例,格式可以在页面的几个地方重复。你知道吗


Tags: ofto标记内容html格式页面find
3条回答

与正则表达式相比,从HTML中获取数据有许多更好的选择。例如,试试Scrapy。你知道吗

不要使用正则表达式来解析HTML(它不是一种正则语言)。 stackoverflow上有许多关于这个主题的线程。你知道吗

我推荐你使用:BeautifulSoup,Pattern和类似的模块。你知道吗

这就是你要找的:

import re

s="""
<TR>
    <TD align=center>Reissue of:</TD>
    <TD align=center> **VALUES_TO_FIND** </TD>
    <TD> </TD> 
</TR>
"""

p="""
<TR>
    <TD align=center>Reissue of:</TD>
    <TD align=center>(.*)</TD>
    <TD> </TD> 
</TR>
"""

m=re.search(p, s)
print m.group(1)

相关问题 更多 >