使用beauthoulsoup/python解析html页面

 Post Primary school Roll number: "60000" Principal "Paul Ince" Enrolment: "Boys; 193 Girls: 190 (2012/13)" Ethos: Catchment: "North Inner CIty " Fees: " No " 

3条回答

网友

1楼 · 编辑于 2024-06-08 15:42:51

还有一个选择。文档中有html问题，这使我觉得忽略这些问题是合理的，只使用文档的文本（beauthoulsoup也提供了这一点）。您应该确定粗体标记的问题是您的问题还是来自原始来源。在

from bs4 import BeautifulSoup

html = """
<span id= "here" style>
 <br>
  <b> Post Primary</b>
   <b>school<b>
    <br>
     <b>Roll number: </b>b>
    "60000"
<br>
<b>Principal</b>
        "Paul Ince"
        <br>
    <b>Enrolment:</b>
"Boys; 123 Girls: 102   (2012/13)"
<br>
        <b>Ethos:</b>
    "Catholic  &nbsp "
    <b>Catchment:</b>
        "North Inner CIty "
        <br>
        <b>Fees:</b>
            " No "
    </span>
"""

soup = BeautifulSoup(html)
q = soup.text
q = [item for item in q.split('\n') if item!='']
d = {}
for i in range(len(q)):
    if 'Enrolment' in q[i] or 'Ethos' in q[i] or 'Fees' in q[i]:
        d[q[i].strip()] = q[i+1].strip()

print d

网友

2楼 · 编辑于 2024-06-08 15:42:51

修复元素的结束标记，您可以通过注意后面的文本后面有一个粗体标记来解析这样的文档。在

import bs4
soup = bs4.BeautifulSoup(A)
data = {}

for item in soup.findAll("b"):
    next_item = item.nextSibling
    data[item.text.strip()] = next_item.string.strip()

print data

提供一个字典，从中可以提取要查找的元素：

^{pr2}$

网友

3楼 · 编辑于 2024-06-08 15:42:51

这正是你需要的。在

其思想是定义您感兴趣的键/标签列表，找到所有b元素并检查b元素中的文本是否在键/标签列表中。如果是-打印出b元素和下一个同级元素的文本：

from bs4 import BeautifulSoup

data = """<span id= "here" style>
 <br>
 <b> Post Primary</b>
 <b>school<b>
 <br>
 <b>Roll number: </b>b>
 "60000"
 <br>
 <b>Principal</b>
 "Paul Ince"
 <br>
 <b>Enrolment:</b>
 "Boys; 123 Girls: 102   (2012/13)"
 <br>
 <b>Ethos:</b>
 "Catholic  &nbsp "
 <b>Catchment:</b>
 "North Inner CIty "
 <br>
 <b>Fees:</b>
 " No "
</span>"""

soup = BeautifulSoup(data)

keys = ['Enrolment', 'Ethos', 'Fees']

for element in soup('b'):
    if element.text[:-1] in keys:
        print element.text + element.next_sibling.strip()

印刷品：

^{pr2}$

希望有帮助。在

相关问题更多 >

编程相关推荐

热门问题

热门文章