无法提取所需的文本部分并从某些元素中丢弃其余部分

2024-05-13 05:20:18 发布

男 | 程序猿一只，喜欢编程写python代码。

我在python代码中使用了一个选择器来从一些html elements中获取Soccer: Next To Play。当我使用for loop和.extract()不需要的部分时，它工作得很好。然而，除了我在下面所做的或者至少用一行表达式做同样的事情之外，还有什么更好的方法来从元素中提取上述文本呢

from bs4 import BeautifulSoup

content='''
  <div class="page-title-new">
   <h1>
    Soccer: Next To Play
    <span aria-hidden="true" class="race-large ng-hide" ng-show="vm.hasRaceNumber()">
     RACE
    </span>
    <span aria-hidden="true" class="race-small ng-hide" ng-show="vm.hasRaceNumber()">
     R
    </span>
    <span aria-hidden="true" class="ng-hide" ng-show="vm.hasRaceNumber()">
    </span>
   </h1>
   <div aria-hidden="true" class="page-info-new ng-hide" ng-show="vm.hasEventDetailItems()">
    <!-- -->
   </div>
  </div>
'''

soup = BeautifulSoup(content,"lxml")
for item in soup.select(".page-title-new h1"):
    for elem in item.select("span"):elem.extract()
    print(item.text.strip())

# items = [item.text for item in soup.select(".page-title-new h1")] #what to do to finish it as a one-liner
# print(items)

有了循环我得到了什么（这是我希望没有循环或一行代码时得到的）：

Soccer: Next To Play

没有循环我得到：

Soccer: Next To Play RACE R

Tags： to div new for play page item ng

1条回答

网友

1楼 · 发布于 2024-05-13 05:20:18

使用soup.select_one()方法（仅查找与CSS选择器匹配的第一个标记）：

...
soup = BeautifulSoup(content,"lxml")
result = soup.select_one(".page-title-new > h1").contents[0].strip()

print(result)

输出：

Soccer: Next To Play

无法提取所需的文本部分并从某些元素中丢弃其余部分

相关问题更多 >

编程相关推荐

热门问题

热门文章

无法提取所需的文本部分并从某些元素中丢弃其余部分

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >