如何编写Python脚本在网站HTML中查找匹配链接
我对Python不是很熟悉,但我需要写一个脚本来完成很多功能。简单来说,我还需要的模块是如何检查一个网站的代码,以找出事先提供的匹配链接。
3 个回答
0
试试 Scrapy,这是一个功能最全的网页提取框架。
3
一般来说,在Python中编写网页程序时,你会使用urllib和urllib2(还有htmllib等)。你也可以使用mechanize、curl等工具。然后,如果你想处理HTML并获取链接,就可以使用像BeautifulSoup这样的解析器。
6
匹配链接是什么?是它们的HREF属性吗?还是链接显示的文本?也许可以这样做:
from BeautifulSoup import BeautifulSoup, SoupStrainer
import re
import urllib2
doc = urllib2.urlopen("http://somesite.com").read()
links = SoupStrainer('a', href=re.compile(r'^test'))
soup = [str(elm) for elm in BeautifulSoup(doc, parseOnlyThese=links)]
for elm in soup:
print elm
这段代码会抓取 somesite.com
的HTML内容,然后用BeautifulSoup来解析这些内容,只寻找那些HREF属性以“test”开头的链接。接着,它会把这些链接整理成一个列表并打印出来。
你可以根据这个去修改,做任何你想做的事情,具体可以参考文档。