我目前正在分析一个html页面以提取一些信息:
有时在结束标记后没有文本,例如下面的HTML文档中etos的情况
<span id= "here" style>
<br>
<b> Post Primary</b>
<b>school<b>
<br>
<b>Roll number: </b>
"60000"
<br>
<b>Principal</b>
"Paul Ince"
<br>
<b>Enrolment:</b>
"Boys; 193 Girls: 190 (2012/13)"
<br>
<b>Ethos:</b>
<b>Catchment:</b>
"North Inner CIty "
<br>
<b>Fees:</b>
" No "
</span>
我想摘录以下信息
入学率=“男孩:193个女孩:190(2012/13)”
Ethos=“”
费用=“否”
还有一个选择。文档中有html问题,这使我觉得忽略这些问题是合理的,只使用文档的文本(beauthoulsoup也提供了这一点)。您应该确定粗体标记的问题是您的问题还是来自原始来源。在
修复
<b>
元素的结束标记,您可以通过注意后面的文本后面有一个粗体标记来解析这样的文档。在提供一个字典,从中可以提取要查找的元素:
^{pr2}$这正是你需要的。在
其思想是定义您感兴趣的键/标签列表,找到所有
b
元素并检查b
元素中的文本是否在键/标签列表中。如果是-打印出b
元素和下一个同级元素的文本:印刷品:
^{pr2}$希望有帮助。在
相关问题 更多 >
编程相关推荐