Python/ASP.NET/Javascript:如何抓取基于ASP.NET的页面
我正在做一个Python程序,目的是从网页上抓取一些公开的数据。现在遇到的问题是,当我想获取一个网页的源代码时,这个网页是通过按钮访问的,并且是基于ASP.NET的。我不能像平常那样直接解析网页中的链接。
所以我想问:有没有简单的方法可以获取这个ASP.NET页面的源代码呢?
为了更清楚地说明,我附上了一个基于ASP.NET的网页:在这个例子中,我想获取当我点击页面中间的“Radiátor topení (1)”时显示的页面的源代码。你可以在这里查看这个父页面!
我试着查看这个(父)页面的源代码,想找找“Radiátor topení (1)”这个文本附近有没有什么链接,但我只找到了这个:
<td class="CatalogCell"><a onclick=" return PathClick('3761801;176564;356239;922141;922488;922507;922508')"><H2 class="CatalogH">Radiátor topení (1)</H2></a></td>
,我担心这对我没有帮助。
我在寻找最简单的方法,因为我对ASP.NET和JavaScript都不是很懂。谢谢大家的建议!
1 个回答
1
这个程序是用Python写的,它可以获取链接的HTML源代码。
import urllib2
from bs4 import BeautifulSoup
link="http://www.example.com"
hdr = {'User-Agent': 'Mozilla/5.0'}
req = urllib2.Request(link,headers=hdr)
page = urllib2.urlopen(link)
soup = BeautifulSoup(page,'html.parser')
print soup