如何将BeautifulSoup HREF search从<a>扩展到<td>

2条回答

网友

1楼 · 编辑于 2024-06-17 11:02:31

要获取所有以/game/开头的href，只需将找到的节点href值附加到列表中：

>>> result1 = []
>>> for a in soup.find_all('a', href=True):
    if a['href'].startswith('/game/'):
        result1.append(a['href'])

>>> print(result1)
['/game/index/4599712?org id=418']

至于第二个，您可以使用regex，但是在a的下一个同级的纯文本上：

>>> import re
>>> result2 = {}
>>> for a in soup.find_all('a', href=True):
    if a['href'].startswith('/team/'):
        m = re.search(r"\((\d+-\d+)\)", a.next_sibling.string)
        if m:
            result2[a.string] = m.group(1)
        else:
            result2[a.string] = ""

>>> print(result2)
{'Philadelphia': '3-1'}

\((\d+-\d+)\)将提取括号内的数字+-+数字。如果不存在此值，则会将键值与找到的键一起添加，但会添加一个空值。你知道吗

网友

2楼 · 编辑于 2024-06-17 11:02:31

您可以使用CSS选择器来匹配以特定字符串开头的标记属性：例如soup.select('a[href^="/game/"]')将匹配以/game/开头的attribute href的所有<a>标记。你知道吗

对于第二部分，您可以使用re模块：

from bs4 import BeautifulSoup
import re

data = '''
<td colspan="4">
    <a href="/game/index/4599712?org id=418" class="skipMask" target="TEAM_WIN">35-28 </a>
</td>
<td nowrap bgcolor="#FFFFFF">
    <a href="/team/145/18741">Philadelphia</a> == $0
    " (3-1)                                     "
</td>
'''

soup = BeautifulSoup(data, 'lxml')

for a in soup.select('a[href^="/game/"]'):
  print(a['href'])

for a in soup.select('a[href^="/team/"]'):
    m = re.findall(r'\s*(.*?)(?=\s*==).*?(\(.*?\))', a.parent.text, flags=re.DOTALL)
    if m:
        print(dict(m))

印刷品：

/game/index/4599712?org id=418
{'Philadelphia': '(3-1)'}

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何将BeautifulSoup HREF search从<a>扩展到<td>

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >