我在HTML页面中有一些已知的格式,我需要解析标记的内容
<TR>
<TD align=center>Reissue of:</TD>
<TD align=center> **VALUES_TO_FIND** </TD>
<TD> </TD>
</TR>
<TR>
<TD align=center> </TD>
</TR>
基本上,我认为我可以将HTML与正则表达式连接起来,正则表达式将匹配我要查找的spot中的任何内容。你知道吗
我知道文本前后的值总是一样的。我怎样才能用RE找到它?(我正在处理几个案例,格式可以在页面的几个地方重复。你知道吗
与正则表达式相比,从HTML中获取数据有许多更好的选择。例如,试试Scrapy。你知道吗
不要使用正则表达式来解析HTML(它不是一种正则语言)。 stackoverflow上有许多关于这个主题的线程。你知道吗
我推荐你使用:BeautifulSoup,Pattern和类似的模块。你知道吗
这就是你要找的:
相关问题 更多 >
编程相关推荐