我需要从这个HTML文件创建一个数据帧。 enter image description here
我用beautifulSoup
尝试了一些代码,但不起作用。另外,我不知道如何创建数据框,因为我只知道只读html,但文件是html
table = BeautifulSoup(open('D:\DownloadingEmail\Job WSCZ_PO_STATUS_REPORT, Step 1.htm','r', encoding="utf8").read()).find_all()
df = pd.read_html(table)
我得到了TypeError:无法读取'ResultSet'类型的对象
这两行代码有很多问题。首先,您尝试将htm存储为一个soup对象,然后再不做任何事情来解析表。你知道吗
其次,你试着把htm读入pandas,但此时它不是htm,而是beautifulSoup对象。你知道吗
您应该能够以字符串的形式读入html,然后使用pandas
.read_html()
来解析表(注意:pandas在引擎盖下使用BeautifulSoup)。你知道吗这将返回数据帧列表(所有
<table>
标记)。然后,我将所有这些数据添加到最后一个数据帧中:输出:943行中的前5行
相关问题 更多 >
编程相关推荐