我如何才能报废一个网站的多个网页,每个网页有类型“j”的hrefavascript:获取下一页()"?

2024-04-18 23:48:43 发布

您现在位置:Python中文网/ 问答频道 /正文

我正试图从数据库中删除数据教育世界.in网站上得到了一个所有学校的名称,地址和评级表。你知道吗

我使用Python和漂亮的Soup4来提取数据。我已经尽可能提取数据,并导入到一个CSV,但我现在有一个问题,从网站的多个页面的数据刮。我想提取所有的学校,但我的脚本仅限于一页。我想把它循环,它将捕获所有的数据从所有网页中找到的网站。你知道吗

以下是我的剧本。我需要帮助创建代码,将捕获所有数据的网站,而不仅仅是一个网站,但多个。你知道吗

    import requests

    from BeautifulSoup import BeautifulSoup

    for i in range(0,21): 

        if i%5==0:

            url='http://www.educationworld.in/institute%2Fsearch%2Fdata%2Fsrch%5Bid_city%5D%3D388%26srch%5Bhmsrchcity%5D%3DFaridabad+%28Haryana%29%26srch%5Bcourse%5D%3D39%26srch%5Bhomepg%5D%3D1/pgn/1','{}','5','institute_searchInstitutes'.format(i)

            response = requests.get(url)
            html = response.content

            soup = BeautifulSoup(html)
            print soup.title

            listing = soup.findAll('div', attrs = {'class': 'srch_box_bg mrgn_btm5 pdng3 p_bgcl'})
            for rec in listing:
                name =  rec.find('div', attrs = {'class': ' fltlft'}).a.text
                ratings = rec.find('div', attrs = {'class': 'fltlft mrgn_rht5'}).text
                address = rec.find('div', attrs = {'class': 'lnhit_20 wrd_wrp'}).text
                print name, "\t", ratings, "\t", address 
                print "\n"'

我想要0,5,10来代替{}。。。获取第1、2、3页的链接。。。在网上。你知道吗


Tags: 数据textinimportdiv网站findrequests