我有一个清单如下所示。我从scraping得到了这个列表,我需要去掉那些<h5>
&</h5>
。有没有办法做到这一点,还是在刮蹭的时候跑来跑去
[[<h5>Tomato Street Grill</h5>, <h5>Go Live</h5>, <h5>Bistro</h5>, <h5>Fresh Inspirations</h5>, <h5>Harvest Bakery</h5>], [<h5>Tomato Street Grill</h5>, <h5>Go Live</h5>, <h5>Bistro</h5>, <h5>Starch Bar</h5>, <h5>Saucey</h5>, <h5>Pacific Fusion</h5>, <h5>Fresh Inspirations</h5>, <h5>Harvest Bakery</h5>], [<h5>Tomato Street Grill</h5>, <h5>Bistro</h5>, <h5>Go Live</h5>, <h5>Saucey</h5>, <h5>Pacific Fusion</h5>, <h5>Fresh Inspirations</h5>, <h5>Harvest Bakery</h5>], [<h5>Tomato Street Grill</h5>, <h5>Go Live</h5>, <h5>Saucey</h5>, <h5>Fresh Inspirations</h5>, <h5>Harvest Bakery</h5>]]
附言:我试着做一些类似于find_next_siblings('h5').text
和python的事情。文本是一个列表,所以我不能用那种方式提取文本
Pps:每个子列表的类型是bs4.element.ResultSet,每个最小项的类型是bs4.element.Tag
这将遍历主列表,然后迭代子列表,然后从子列表中删除不需要的h5标签。希望这有帮助
编辑,因为这些是漂亮的soup对象,所以需要调用text方法,有几种方法可以做到这一点
相关问题 更多 >
编程相关推荐