如何从web页面获取JS重定向的pdf链接

ofstedbase = "http://www.ofsted.gov.uk" for col_header in soup.findAll('th'): if not col_header.contents[0] == "Latest reports": continue for link in col_header.parent.parent.findAll('a'): if 'href' in link.attrs and link['href'].endswith('pdf'): break else: print '"Latest reports" PDF not found' break print '"Latest reports" PDF points at', link['href'] p = requests.get(ofstedbase+link['href']) print p.content break

2条回答

网友

1楼 · 编辑于 2024-05-29 10:03:34

让它在beauthulsoup的另一个迭代中工作

 souppage = BeautifulSoup(p.text)
 line = souppage.findAll('a',text=re.compile("requested"))[0]
 pdf = requests.get(ofstedbase+line['href'])

网友

2楼 · 编辑于 2024-05-29 10:03:34

这不是最干净的解决方案，但是您可以遍历列标题，直到找到“最新报告”，然后在该表中搜索指向PDF文件的第一个链接。在

for col_header in soup.findAll('th'):
    if not col_header.contents[0] == "Latest reports": continue
    for link in col_header.parent.parent.findAll('a'):
        if 'href' in link.attrs and link['href'].endswith('pdf'): break
    else:
        print '"Latest reports" PDF not found'
        break
    print '"Latest reports" PDF points at', link['href']
    break

您可以尝试使用Selenium WebDriver（python -m "easy_install" selenium）自动指示Firefox下载该文件。这需要Firefox：

^{pr2}$

这个解决方案非常强大，因为它可以做任何人类用户可以做的事情，但它也有缺点。例如，我试图解决Firefox提示下载的问题，但它对我不起作用。结果可能会因安装的附加组件和Firefox版本而异。在

相关问题更多 >

编程相关推荐

热门问题

热门文章