如何到达隐藏在验证码后面的mediafire直接链接？

url = "http://download2163.mediafire.com/icum151v51zg/55rll9s5ioshz5n/Alcohol52_FE_2-0-3-6850.exe" file_name ='file' u = urllib2.urlopen(url) f = open(file_name, 'wb') buffer = u.read() f.write(buffer) f.close()

1条回答

网友

1楼 · 发布于 2024-05-26 20:45:54

您需要在页面中查找可以用来始终标识链接的内容。例如，download链接位于类为“download link”的div元素中。您可以解析该div的HTML，然后从它的子元素获取链接。还有其他的可能性。例如，您可以在感兴趣的URL中查找某个唯一的常量，并在从页面获取所有链接后使用正则表达式进行选择。在

我强烈建议您查看beauthoulsoup库，它将允许您轻松解析HTML。在

编辑：好吧，我没有注意到这一点，因为我最初在浏览器中查看页面，但显然mediafire只在页面加载后用javascript填充下载div，这使得获取链接变得更加困难。谢天谢地，他们仍然需要包含下载链接，并使用一个丑陋、可怕的小黑客，我们可以抓住它：

首先，您需要以下URL的正则表达式：http://daringfireball.net/2010/07/improved_regex_for_matching_urls

然后抓取页面内容并用beautifulsoup进行如下解析：

soup = BeautifulSoup(page)
div_tag = soup.find_all(class_="download_link")[0]
script_tag = div_tag("script")[0]
link = re.findall(regex, script_tag.contents[0])[0]

以下是我的全部工作代码：

^{2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章