如何编写Python脚本在网站HTML中查找匹配链接

Question

我对Python不是很熟悉，但我需要写一个脚本来完成很多功能。简单来说，我还需要的模块是如何检查一个网站的代码，以找出事先提供的匹配链接。

Answer 1

试试 Scrapy，这是一个功能最全的网页提取框架。

Answer 2

一般来说，在Python中编写网页程序时，你会使用urllib和urllib2（还有htmllib等）。你也可以使用mechanize、curl等工具。然后，如果你想处理HTML并获取链接，就可以使用像BeautifulSoup这样的解析器。

Answer 3

匹配链接是什么？是它们的HREF属性吗？还是链接显示的文本？也许可以这样做：

from BeautifulSoup import BeautifulSoup, SoupStrainer
import re
import urllib2

doc = urllib2.urlopen("http://somesite.com").read()
links = SoupStrainer('a', href=re.compile(r'^test'))
soup = [str(elm) for elm in BeautifulSoup(doc, parseOnlyThese=links)]
for elm in soup:
    print elm

这段代码会抓取 somesite.com 的HTML内容，然后用BeautifulSoup来解析这些内容，只寻找那些HREF属性以“test”开头的链接。接着，它会把这些链接整理成一个列表并打印出来。

你可以根据这个去修改，做任何你想做的事情，具体可以参考文档。

如何编写Python脚本在网站HTML中查找匹配链接

3 个回答

撰写回答