使用Python的win32com解析HTML的问题
我刚开始学Python,想从CNN网站上提取一些文本。
我想使用Python的win32com模块。
编辑: 关于[为什么用win32com]
因为网站上有JavaScript,所以我想用win32com;我找过其他解决方案,但都没能满足我的需求。其实,我想用mechanize或者类似的工具,但对我来说不太管用。
请问可以把beautifulsoup或者lxml和win32com一起用吗?
如果有人知道怎么从CNN网站提取一些文本,请帮帮我!我特别想提取CNN网站上'赞助链接'和'钱'的文本。
import win32com.client
from time import sleep
from win32com.client import Dispatch
import urllib,urllib2
from BeautifulSoup import BeautifulSoup
ie = Dispatch("InternetExplorer.Application")
ie.Visible = 1
ie.Navigate("http://www.cnn.com")
sleep(15)
ie.Quit()
1 个回答
1
你是在尝试解析cnn网站上的一些文本吗?
你可以用下面的代码获取网页:
import urllib
f = urllib.urlopen('http://www.cnn.com')
page = f.read()
f.close()
然后你可以使用BeautifulSoup这个工具来找到你想要的内容。
那为什么要用win32com、dispatch等等呢?