我正试图分析一个网站,以提取一些存储在正文中的数据,例如:
<body>
<b>INFORMATION</b>
Hookups: None
Group Sites: No
Station: No
<b>Details</b>
Ramp: Yes
</body>
我想使用BeautifulSoup4和RegEx来提取连接和组站点等的值,但我对bs4和RegEx都是新手。我尝试了以下操作以获取连接值:
soup = BeautifulSoup(open('doc.html'))
hookups = soup.find_all(re.compile("Hookups:(.*)Group"))
但搜索结果是空的。
BeautifulSoup的
find_all
仅适用于标记。假设HTML如此简单,您实际上可以只使用纯regex来获得所需的内容。否则可以使用find_all
,然后获取.text
节点。您还可以使用BeautifulSoup 4.2的
text
属性按标记内容进行搜索相关问题 更多 >
编程相关推荐