理解美化组过滤有问题吗

soup = BeautifulSoup(response.text) main = soup.find('div', {'class': 'srg'}) result = main.find('div', {'class': 'g'}) data = result.find('div', {'class': 's'}) data2 = data.find('div') for item in data2: site = item.find('cite') comment = item.find('span', {'class': 'st'}) print site print comment

<div class="srg"> <div class="g"> <div class="g"> <div class="g"> <div class="g">  <div class="rc" data="30"> <div class="s"> <div> <div class="f kv _SWb" style="white-space:nowrap"> <cite class="_Rm">http://www.url.com.stuff/here</cite> <span class="st">http://www.url.com. Some info on url etc etc </span> </div> </div> </div>  </div> <div class="g"> <div class="g"> <div class="g"> </div>

<li class="g"> <h3 class="r"> <a href="/url?q=url">context</a> </h3> <div class="s"> <div class="kv" style="margin-bottom:2px"> <cite>www.url.com/index.html</cite> #Data I am looking to grab <div class="_nBb">‎ <div style="display:inline"snipped"> <span class="_O0"></span> </div> <div style="display:none" class="am-dropdown-menu" role="menu" tabindex="-1"> <ul> <li class="_Ykb"> <a class="_Zkb" href="/url?/search">Cached</a> </li> </ul> </div> </div> </div> <span class="st">Details about URI </span> #Data I am looking to grab

soup = BeautifulSoup(response.text) for cite in soup.select("li.g div.s div.kv cite"): span = cite.find_next_sibling("span", class_="st") print(cite.get_text(strip=True)) print(span.get_text(strip=True))

2条回答

网友

1楼 · 编辑于 2024-04-24 00:27:17

您不必手动处理层次结构-让BeautifulSoup来操心它。您的第二种方法与您真正应该尝试的方法很接近，但是一旦您获得了包含class="s"的div，并且其中没有cite元素，它就会失败。在

相反，您需要让BeautifulSoup知道您对包含特定元素的特定元素感兴趣。让我们请求位于div内的cite元素，其中class="g"位于div元素内，其中class="srg"-div.srg div.g citeCSS selector元素可以准确地找到我们要问的内容：

for cite in soup.select("div.srg div.g cite"):
    span = cite.find_next_sibling("span", class_="st")

    print(cite.get_text(strip=True))
    print(span.get_text(strip=True))

然后，一旦找到cite，我们就“往一边走”，用class="st"抓取下一个span同级元素。不过，是的，我们假设它存在。在

对于提供的示例数据，它将打印：

^{pr2}$

更新的输入数据的更新代码：

for cite in soup.select("li.g div.s div.kv cite"):
    span = cite.find_next("span", class_="st")

    print(cite.get_text(strip=True))
    print(span.get_text(strip=True))

另外，请确保您使用的是第四个版本：

pip install  upgrade beautifulsoup4

进口声明应为：

from bs4 import BeautifulSoup

网友

2楼 · 编辑于 2024-04-24 00:27:17

首先获取类名为srg的div，然后在这个srg中找到所有类名为s的div，并得到site和{}的文本。以下是我的工作守则-

from bs4 import BeautifulSoup

html = """<div class="srg">
    <div class="g">
    <div class="g">
    <div class="g">
    <div class="g">
        <! m >
        <div class="rc" data="30">
            <div class="s">
                <div>
                    <div class="f kv _SWb" style="white-space:nowrap">
                        <cite class="_Rm">http://www.url.com.stuff/here</cite>
                    <span class="st">http://www.url.com. Some info on url etc etc
                    </span>
                </div>
            </div>
        </div>
        <! n >
    </div>
    <div class="g">
    <div class="g">
    <div class="g">
</div>"""

soup = BeautifulSoup(html , 'html.parser')
labels = soup.find('div',{"class":"srg"})

spans = labels.findAll('div', {"class": 'g'})

sites = []
comments = []

for data in spans:
    site = data.find('cite',{'class':'_Rm'})
    comment = data.find('span',{'class':'st'})
    if site:#Check if site in not None
        if site.text.strip() not in sites:
            sites.append(site.text.strip())
        else:
            pass
    if comment:#Check if comment in not None
        if comment.text.strip() not in comments:
            comments.append(comment.text.strip())
        else: pass

print sites
print comments

输出-

^{pr2}$

编辑

为什么你的代码不起作用

试一下-

您使用的是result = main.find('div', {'class': 'g'})，它将获取第一个遇到的单个元素，但第一个元素没有类名为s的{}。所以这段代码的下一部分就行不通了。在

尝试二-

您正在打印不在打印范围内的site和{}。所以试着在内部打印for循环。在

soup = BeautifulSoup(html,'html.parser') 

s = soup.findAll('div', {'class': 's'})

for result in s:
    site = result.find('cite')
    comment = result.find('span', {'class': 'st'})
    print site.text#Grab text
    print comment.text

相关问题更多 >

编程相关推荐

热门问题

热门文章