输入如下:
text="""Hi Team from the following Server :
<table border="0" cellpadding="0" cellspacing="0" style="width:203pt">
<tbody>
<tr>
<td style="height:15.0pt; width:203pt">ratsuite.sby.ibm.com</td>
</tr>
</tbody>
</table>
<p> </p>
<p>Please archive the following Project Areas :</p>
<table border="0" cellpadding="0" cellspacing="0" style="width:1436pt">
<tbody>
<tr>
<td style="height:15.0pt; width:505pt">UNIT TEST - IBM OPAL 3.3 RC3</td>
<td style="width:328pt">https://ratsuite.sby.ibm.com:9460/ccm</td>
<td style="width:603pt">https://ratsuite.sby.ibm.com:9460/ccm/process/project-areas/_ckR-QJiUEeOXmZKjKhPE4Q</td>
</tr>
</tbody>
</table>"""
在输出中,我只需要这两行,要删除python中带有数据的表标记:
来自以下服务器的Hi团队:
请将以下项目区域存档:
您可以使用
HTMLParser
,如下所示:输出:
如果不想使用外部库,可以使用
re
模块删除表:打印输出:
(还有两条不可见的空行)。你知道吗
关于模式,请注意
+
后面紧跟着?
,这意味着使用非贪婪匹配—否则它将清除第一个表的开始和最后一个表的结束之间的任何内容。re.DOTALL
是必需的,因为我们的子字符串包含换行符(\n
)使用
BeautifulSoup
解析HTML例如:
输出:
相关问题 更多 >
编程相关推荐