python beautifulsoup刮取站点

<div class="lunchRow"> <div class="lunchRowDay"><h3>Monday</h3></div> <div class="lunchRowItem"><div class="lunchRowItemActual">Meatballs</div> <div class="lunchRowItemActual">Soup</div> </div> </div> <div class="lunchRow"> <div class="lunchRowDay"><h3>Tuesday</h3></div> <div class="lunchRowItem"><div class="lunchRowItemActual">Chicken</div> <div class="lunchRowItemActual">Pork</div> <div class="lunchRowItemActual">Fish</div> </div> </div>

2条回答

网友

1楼 · 编辑于 2024-05-15 02:03:19

首先，您应该尝试按其类名获取所有午餐行div，并将其保存到如下所示的变量中：

rows = soup.findAll('div', attrs={'class': 'lunchRow'})

然后，我们可以循环它们，得到如下所示的各个日期和项目。这里我们获取第一个/唯一的午餐日项目，然后查找当前行中的所有午餐日项目实际元素：

for row in rows:
  print(row.find('div', attrs={'class': 'lunchRowDay'}).text)
  actuals = row.findAll('div', attrs={'class': 'lunchRowItemActual'})
  for actual in actuals:
    print(actual.text)

这项研究的结果是：

Monday
Meatballs
Soup
Tuesday
Chicken
Pork
Fish

与其将它们打印出来，不如将它们放在dict中，使用午餐行日期作为键，然后将午餐行项目实际值放在列表中，但这取决于您

网友

2楼 · 编辑于 2024-05-15 02:03:19

soup.select是一种很好的方式来做这样的事情

然后使用get_文本。。。获取文本

一些列表理解将get_文本应用于整个列表

days = soup.select("div.lunchRowDay")
for day in days:
    print(day.get_text())
    items = [item.get_text() for item in day.select("div.lunchRowItemActual")]
    print(items)

相关问题更多 >

编程相关推荐

热门问题

热门文章