从标签之间提取文本的有效方法

var = '<li> <a href="/...html">Energy</a> <ul> <li> <a href="/...html">Coal</a> </li> <li> <a href="/...html">Oil </a> </li> <li> <a href="/...html">Carbon</a> </li> <li> <a href="/...html">Oxygen</a> </li'

3条回答

网友

1楼 · 编辑于 2024-05-16 08:56:38

您可以使用Beautiful Soup来完成这类任务。它非常简单，易于安装，并且有大量文档。

您的示例中有一些li标记未关闭。我已经做了更正，这是如何得到所有的李标签

from bs4 import BeautifulSoup

var = '''<li> <a href="/...html">Energy</a></li>
    <ul>
    <li><a href="/...html">Coal</a></li>
    <li><a href="/...html">Oil </a></li>
    <li><a href="/...html">Carbon</a></li>
    <li><a href="/...html">Oxygen</a></li>'''

soup = BeautifulSoup(var)

for a in soup.find_all('a'):
  print a.string

它将打印：

Energy
Coa
Oil
Carbon
Oxygen

有关文档和更多示例，请参见美化组doc

网友

2楼 · 编辑于 2024-05-16 08:56:38

如果您只是在分析了标记中的内容之后，请尝试使用xpath，例如

for text in var.xpath_all(".//ul/li"):
     text = li.xpath('.//a/text()')
     print text

您还可以使用urllib、BeautifulSoup等

网友

3楼 · 编辑于 2024-05-16 08:56:38

从标记语言中提取信息的推荐方法是使用解析器，例如Beautiful Soup是一个不错的选择。Avoid using regular expressions对于这个，它不是适合这个工作的工具！

相关问题更多 >

编程相关推荐

热门问题

热门文章