我正试图从数据库中删除数据教育世界.in网站上得到了一个所有学校的名称,地址和评级表。你知道吗
我使用Python和漂亮的Soup4来提取数据。我已经尽可能提取数据,并导入到一个CSV,但我现在有一个问题,从网站的多个页面的数据刮。我想提取所有的学校,但我的脚本仅限于一页。我想把它循环,它将捕获所有的数据从所有网页中找到的网站。你知道吗
以下是我的剧本。我需要帮助创建代码,将捕获所有数据的网站,而不仅仅是一个网站,但多个。你知道吗
import requests
from BeautifulSoup import BeautifulSoup
for i in range(0,21):
if i%5==0:
url='http://www.educationworld.in/institute%2Fsearch%2Fdata%2Fsrch%5Bid_city%5D%3D388%26srch%5Bhmsrchcity%5D%3DFaridabad+%28Haryana%29%26srch%5Bcourse%5D%3D39%26srch%5Bhomepg%5D%3D1/pgn/1','{}','5','institute_searchInstitutes'.format(i)
response = requests.get(url)
html = response.content
soup = BeautifulSoup(html)
print soup.title
listing = soup.findAll('div', attrs = {'class': 'srch_box_bg mrgn_btm5 pdng3 p_bgcl'})
for rec in listing:
name = rec.find('div', attrs = {'class': ' fltlft'}).a.text
ratings = rec.find('div', attrs = {'class': 'fltlft mrgn_rht5'}).text
address = rec.find('div', attrs = {'class': 'lnhit_20 wrd_wrp'}).text
print name, "\t", ratings, "\t", address
print "\n"'
我想要0,5,10来代替{}。。。获取第1、2、3页的链接。。。在网上。你知道吗
目前没有回答
相关问题 更多 >
编程相关推荐