从python中提取特定于html的漂亮标签

html='<tr><th scope="row">Born</th><td> (1994-01-28) 28 January 1994 (age 23)<a href="#cite_note-buenamusica-1">[1]</a> <a href="/wiki/Medell%C3%ADn" title="Medellín">Medellín</a>, <a href="/wiki/Colombia" title="Colombia">Colombia</a></td></tr>'

2条回答

网友

1楼 · 编辑于 2024-06-13 08:44:35

您所插入的信息似乎也存在于title属性中。您可以尝试用它代替text，并放弃None所在的条目。在

from bs4 import BeautifulSoup

html='<tr><th scope="row">Born</th><td><span style="display:none"> (<span class="bday">1994-01-28</span>) </span>28 January 1994<span class="noprint ForceAgeToShow"> (age 23)</span><sup class="reference" id="cite_ref-buenamusica_1-0"><a href="#cite_note-buenamusica-1">[1]</a></sup><br/><a href="/wiki/Medell%C3%ADn" title="Medellín">Medellín</a>, <a href="/wiki/Colombia" title="Colombia">Colombia</a></td></tr>'

soup3=BeautifulSoup(html,'html.parser')
spans=soup3.findAll('tr')
[el.get('title') for el in soup3.find_all('a') if el.get('title') is not None]
# ['Medellín', 'Colombia']

网友

2楼 · 编辑于 2024-06-13 08:44:35

对于这种代码模式：

<tr>
    <th scope="row">Born</th>
    <td>
        <span style="display:none"> (<span class="bday">1994-01-28</span>) </span>
        28 January 1994
        <span class="noprint ForceAgeToShow"> (age 23)</span>
        <sup class="reference" id="cite_ref-buenamusica_1-0">
            <a href="#cite_note-buenamusica-1">[1]</a>
        </sup>
        <br/>
        <a href="/wiki/Medell%C3%ADn" title="Medellín">Medellín</a>,
        <a href="/wiki/Colombia" title="Colombia">Colombia</a>
    </td>
</tr>

您可以尝试使用更具体的选择器，例如：

^{pr2}$

或者

soup3=BeautifulSoup(html,'html.parser')
spans=soup3.select('tr')
[el.text for el in spans.find_all('td>a')]

相关问题更多 >

编程相关推荐

热门问题

热门文章

从python中提取特定于html的漂亮标签

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >