使用Python的win32com解析HTML的问题

0 投票
1 回答
820 浏览
提问于 2025-04-15 15:21

我刚开始学Python,想从CNN网站上提取一些文本。
我想使用Python的win32com模块。
编辑: 关于[为什么用win32com]
因为网站上有JavaScript,所以我想用win32com;我找过其他解决方案,但都没能满足我的需求。其实,我想用mechanize或者类似的工具,但对我来说不太管用。

请问可以把beautifulsoup或者lxmlwin32com一起用吗?
如果有人知道怎么从CNN网站提取一些文本,请帮帮我!我特别想提取CNN网站上'赞助链接'和''的文本。

import win32com.client
from time import sleep
from win32com.client import Dispatch
import urllib,urllib2
from BeautifulSoup import BeautifulSoup

ie = Dispatch("InternetExplorer.Application")   
ie.Visible = 1   
ie.Navigate("http://www.cnn.com") 
sleep(15)
ie.Quit()

1 个回答

1

你是在尝试解析cnn网站上的一些文本吗?

你可以用下面的代码获取网页:

import urllib
f = urllib.urlopen('http://www.cnn.com')
page = f.read()
f.close()

然后你可以使用BeautifulSoup这个工具来找到你想要的内容。

那为什么要用win32com、dispatch等等呢?

撰写回答