使用beauthoulsoup帮助分析<pre>标记

2024-05-19 00:00:25 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图用beauthulsoup和python从一个网站上解析出信息。html如下所示。我希望我的解析数据看起来像:

ID定义
赖氨酸生物合成-伯氏伯克霍尔德菌17
... 其余的数据放在相似的地方(在“pre”标记内,在“a”标记之外。在

我该怎么做?在

<pre>ID                   Definition
    ----------------------------------------------------------------------------------------------------
<a href="/kegg-bin/show_pathway?bpm00300">bpm00300</a>             Lysine biosynthesis - Burkholderia pseudomallei 17 
<a href="/kegg-bin/show_pathway?bpm00330">bpm00330</a>             Arginine and proline metabolism - Burkholderia pse 
<a href="/kegg-bin/show_pathway?bpm01100">bpm01100</a>             Metabolic pathways - Burkholderia pseudomallei 171 
<a href="/kegg-bin/show_pathway?bpm01110">bpm01110</a>             Biosynthesis of secondary metabolites - Burkholder 
</pre>

我试过:

^{pr2}$

这给了我:

 ID                   Definition
----------------------------------------------------------------------------------------------------

谢谢你的帮助!在


Tags: 数据标记idbinshowprehrefkegg
1条回答
网友
1楼 · 发布于 2024-05-19 00:00:25

beauthoulGroup()及其搜索方法return you a hierarchical parse-tree object,而不仅仅是一个字符串。在找到的节点上迭代findChildren()可以执行您想要的操作(并跳过标题行):

for a in soup.find('pre').findChildren():
    z = a.string

相关问题 更多 >

    热门问题