使用Python的win32com解析HTML的问题

0 投票

1 回答

820 浏览

提问于 2025-04-15 15:21

我刚开始学Python，想从CNN网站上提取一些文本。
我想使用Python的win32com模块。
编辑: 关于[为什么用win32com]
因为网站上有JavaScript，所以我想用win32com；我找过其他解决方案，但都没能满足我的需求。其实，我想用mechanize或者类似的工具，但对我来说不太管用。

请问可以把beautifulsoup或者lxml和win32com一起用吗？
如果有人知道怎么从CNN网站提取一些文本，请帮帮我！我特别想提取CNN网站上'赞助链接'和'钱'的文本。

import win32com.client
from time import sleep
from win32com.client import Dispatch
import urllib,urllib2
from BeautifulSoup import BeautifulSoup

ie = Dispatch("InternetExplorer.Application")   
ie.Visible = 1   
ie.Navigate("http://www.cnn.com") 
sleep(15)
ie.Quit()

lxml 数据提取 html解析网络爬虫 beautifulsoup win32com JavaScript处理 cnn网站

1 个回答

你是在尝试解析cnn网站上的一些文本吗？

你可以用下面的代码获取网页：

import urllib
f = urllib.urlopen('http://www.cnn.com')
page = f.read()
f.close()

然后你可以使用BeautifulSoup这个工具来找到你想要的内容。

那为什么要用win32com、dispatch等等呢？

回答于 2025-04-15 由 Python大师

分享举报

使用Python的win32com解析HTML的问题

1 个回答

撰写回答