在URL中包含“alpha”的链接上有许多链接(href),我希望从20个不同的页面收集这些链接并粘贴到常规URL的末尾(最后一行第二行)。href位于一个表中,该表的类是td的mys elastic mys,a显然是包含href属性的元素。任何帮助都将非常感谢,因为我已经在这个工作了大约一个星期。
for i in range(1, 11):
# The HTML Scraper for the 20 pages that list all the exhibitors
url = 'http://ahr13.mapyourshow.com/5_0/exhibitor_results.cfm?alpha=%40&type=alpha&page=' + str(i) + '#GotoResults'
print url
list_html = scraperwiki.scrape(url)
root = lxml.html.fromstring(list_html)
href_element = root.cssselect('td.mys-elastic mys-left a')
for element in href_element:
# Convert HTMl to lxml Object
href = href_element.get('href')
print href
page_html = scraperwiki.scrape('http://ahr13.mapyourshow.com' + href)
print page_html
不需要在javascript上浪费时间-它都在html中:
相关问题 更多 >
编程相关推荐