可以通过Python进行HTML爬虫和数据挖掘吗?
我可以用Python来收集智能数据和进行HTML抓取吗?我对这些都不了解,所以想先了解一下。
4 个回答
1
试试使用urllib2和Beautiful Soup。
urllib2是一个可以用来编程请求网址的工具。它是Python自带的库之一,你可以在这里找到更多信息:http://docs.python.org/library/urllib2
Beautiful Soup则是一个很适合用来处理HTML和XML的工具,你可以在这里找到它:http://pypi.python.org/pypi/BeautifulSoup
3
看看这个叫做 scrapy 的模块: