使用pandas读取下载的html fi

2024-05-14 17:50:33 发布

您现在位置:Python中文网/ 问答频道 /正文

作为标题,我尝试使用read_html,但出现以下错误:

In [17]:temp = pd.read_html('C:/age0.html',flavor='lxml')
  File "<string>", line unknown
XMLSyntaxError: htmlParseStartTag: misplaced <html> tag, line 65, column 6

我做错了什么?

更新01

HTML在顶部包含一些javascript,然后是一个HTML表。我用R处理它,通过XML包解析html给我一个数据帧。我想用python做,在给熊猫之前,我应该用别的东西比如beautifulsoup吗?


Tags: in标题readstringhtml错误linelxml
2条回答
  1. 首先安装以下用于分析的软件包

    • pip安装美化组4
    • pip安装lxml
    • pip安装html5lib
  2. 然后使用“read_html”读取任何html页面上的html表。


    import pandas as pds
    pds_df = pds.read_html('C:/age0.html')
    pds_df[0]
    

我希望这会有帮助。

祝你好运!!

我认为您使用了像beautifuldsoup这样的html解析器,这是正确的做法。read_html()读取的是html表而不是html页。

你会想做这样的事。。。

from bs4 import BeautifulSoup
import pandas as pd

table = BeautifulSoup(open('C:/age0.html','r').read()).find('table')
df = pd.read_html(table) #I think it accepts BeatifulSoup object
                         #otherwise try str(table) as input

相关问题 更多 >

    热门问题