作为标题,我尝试使用read_html
,但出现以下错误:
In [17]:temp = pd.read_html('C:/age0.html',flavor='lxml')
File "<string>", line unknown
XMLSyntaxError: htmlParseStartTag: misplaced <html> tag, line 65, column 6
我做错了什么?
HTML在顶部包含一些javascript,然后是一个HTML表。我用R处理它,通过XML包解析html给我一个数据帧。我想用python做,在给熊猫之前,我应该用别的东西比如beautifulsoup吗?
首先安装以下用于分析的软件包
然后使用“read_html”读取任何html页面上的html表。
我希望这会有帮助。
祝你好运!!
我认为您使用了像beautifuldsoup这样的html解析器,这是正确的做法。read_html()读取的是html表而不是html页。
你会想做这样的事。。。
相关问题 更多 >
编程相关推荐