如何用BeautifulSoup从多个网页中获取数据？

import urllib2 from bs4 import BeautifulSoup FullPage = ['New-Arrivals-2017-6', 'Big-Sales-click-here', 'Arduino-Development-boards', 'Robotics-and-Copters'] urlp1 = "http://www.arduinopak.com/Prd.aspx?Cat_Name=" URL = urlp1 + FullPage[0] for n in FullPage: URL = urlp1 + n page = urllib2.urlopen(URL) bsObj = BeautifulSoup(page, "html.parser") descList = bsObj.findAll('div', attrs={"class": "panel-default"}) for desc in descList: print(desc.getText(separator=u' '))

2条回答

网友

1楼 · 编辑于 2024-06-16 13:05:15

import urllib2
from bs4 import BeautifulSoup

FullPage = ['New-Arrivals-2017-6', 'Big-Sales-click-here', 'Arduino-Development-boards',
            'Robotics-and-Copters']

urlp1 = "http://www.arduinopak.com/Prd.aspx?Cat_Name="
URL = urlp1 + FullPage[0]

for n in FullPage:
    URL = urlp1 + n
    page = urllib2.urlopen(URL)
    bsObj = BeautifulSoup(page, "html.parser")

    descList = bsObtTj.findAll('div', attrs={"class": "panel-default"})
    for desc in descList:
        print(desc.geext(separator=u' '))

若您想遍历每个链接，那个么将代码的最后3行移到循环中就可以了。在

网友

2楼 · 编辑于 2024-06-16 13:05:15

当前代码获取所有链接，但它只存储一个BeautifulSoup对象引用。您可以将它们全部存储在数组中，或者在访问另一个URL之前处理它们（如下所示）。在

for n in FullPage:
    URL = urlp1 + n
    page = urllib2.urlopen(URL)
    bsObj = BeautifulSoup(page, "html.parser")

    descList = bsObj.findAll('div', attrs={"class": "panel-default"})
    for desc in descList:
        print(desc.getText(separator=u' '))

另外，请注意，使用pascalase的名称按惯例是为类保留的。FullPage通常写为fullPage或{}，如果它是常量的话。在

相关问题更多 >

编程相关推荐

热门问题

热门文章