我如何才能报废一个网站的多个网页，每个网页有类型“j”的hrefavascript:获取下一页()"?

2024-04-18 23:48:43 发布

1981

男 | 程序猿一只，喜欢编程写python代码。

我正试图从数据库中删除数据教育世界.in网站上得到了一个所有学校的名称，地址和评级表。你知道吗

我使用Python和漂亮的Soup4来提取数据。我已经尽可能提取数据，并导入到一个CSV，但我现在有一个问题，从网站的多个页面的数据刮。我想提取所有的学校，但我的脚本仅限于一页。我想把它循环，它将捕获所有的数据从所有网页中找到的网站。你知道吗

以下是我的剧本。我需要帮助创建代码，将捕获所有数据的网站，而不仅仅是一个网站，但多个。你知道吗

    import requests

    from BeautifulSoup import BeautifulSoup

    for i in range(0,21): 

        if i%5==0:

            url='http://www.educationworld.in/institute%2Fsearch%2Fdata%2Fsrch%5Bid_city%5D%3D388%26srch%5Bhmsrchcity%5D%3DFaridabad+%28Haryana%29%26srch%5Bcourse%5D%3D39%26srch%5Bhomepg%5D%3D1/pgn/1','{}','5','institute_searchInstitutes'.format(i)

            response = requests.get(url)
            html = response.content

            soup = BeautifulSoup(html)
            print soup.title

            listing = soup.findAll('div', attrs = {'class': 'srch_box_bg mrgn_btm5 pdng3 p_bgcl'})
            for rec in listing:
                name =  rec.find('div', attrs = {'class': ' fltlft'}).a.text
                ratings = rec.find('div', attrs = {'class': 'fltlft mrgn_rht5'}).text
                address = rec.find('div', attrs = {'class': 'lnhit_20 wrd_wrp'}).text
                print name, "\t", ratings, "\t", address 
                print "\n"'

我想要0，5，10来代替{}。。。获取第1、2、3页的链接。。。在网上。你知道吗

Tags：数据 text in import div 网站 find requests

0条回答

目前没有回答

我如何才能报废一个网站的多个网页，每个网页有类型“j”的hrefavascript:获取下一页()"?

相关问题更多 >

编程相关推荐

热门问题

热门文章

我如何才能报废一个网站的多个网页，每个网页有类型“j”的hrefavascript:获取下一页()"?

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >