如何使用python从HTML中删除“table”?你知道吗
我遇到过这样的情况:
paragraph = '''
<p>Lorem ipsum dolor sit amet, consectetur adipisicing elit. Quidem molestiae consequuntur officiis corporis sint.<br /><br />
<table>
<tr>
<td>
text title
</td>
<td>
text title 2
</td>
</tr>
</table>
<p> lorem ipsum</p>
'''
如何使用python删除具有上述表结构的内容? 我希望输出结果如下:
paragraph = '''
<p>Lorem ipsum dolor sit amet, consectetur adipisicing elit. Quidem molestiae consequuntur officiis corporis sint.<br /><br />
<p> lorem ipsum</p>
'''
您也可以尝试这种基本的字符串格式
甚至这种方法也可以用于基本的文本提取
使用regex很复杂,这是我建议的一种愚蠢的方式:
结果中可能有一些空行。你知道吗
你可以使用^{} 尤其是^{}
相关问题 更多 >
编程相关推荐