从DIV组中刮取特定内容时出现问题

for rests in dining_soup.select("div.infos-restos"): for rest in rests.select("h3"): print(" Rest Name: "+rest.text) print(rest.next_sibling.next_sibling.next_sibling.next_sibling.string)

1条回答

网友

1楼 · 发布于 2024-04-25 21:05:27

我建议你用^{}

beautifulsoup不支持xpath
在我看来，用xpath从DOM中提取数据要简单得多

以下是您的操作方法：

from lxml import etree
import requests

url = 'http://www.accorhotels.com/gb/hotel-5548-mercure-niederbronn-hotel/restaurant.shtml'
res = requests.get(url)

tree = etree.HTML(res.content)  
rest_name_xpath = '//div[@class="infos-restos"]/div[@class="detail-resto"]/following-sibling::h3'

for item in tree.xpath(rest_name_xpath):
    print item.text

输出：

RESTAURANT DU CASINO IVORY
BAR DES MACHINES A SOUS

附言：这个网站的html写得不好，没有合适的结构。这就是为什么xpath又长又丑的原因

编程相关推荐

java遍历数组并检查项的值
在名为“”的DispatcherServlet中找不到URI为[/api/encodedurl]的HTTP请求的java映射
java如何在所有JUnit测试中集成Spring Instrument javaagent
java从Axis2生成的存根获取端点URL
使用Gson从JSON转换为POJO的java问题
java如何在安卓中循环声音
java客户端中的elasticsearch geohash方面
我想用Java从右向左打印*请提供输入
java在安卓中上传一个或多个图像
调试如何在Netbeans中调试Java Web应用程序？

相关问题更多 >

编程相关推荐

热门问题

热门文章

从DIV组中刮取特定内容时出现问题

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >