我是熊猫的新手,我正在尝试从一些HTML文件中提取一些数据
如何转换多个如下所示的HTML表:
PS4
Game Name | Price
GoW | 49.99
FF VII R | 59.99
XBX
Game Name | Price
Gears 5 | 49.99
Forza 5 | 59.99
<table>
<tr colspan="2">
<td>PS4</td>
</tr>
<tr>
<td>Game Name</td>
<td>Price</td>
</tr>
<tr>
<td>GoW</td>
<td>49.99</td>
</tr>
<tr>
<td>FF VII R</td>
<td>59.99</td>
</tr>
</table>
<table>
<tr colspan="2">
<td>XBX</td>
</tr>
<tr>
<td>Game Name</td>
<td>Price</td>
</tr>
<tr>
<td>Gears 5</td>
<td>49.99</td>
</tr>
<tr>
<td>Forza 5</td>
<td>59.99</td>
</tr>
</table>
进入json对象,如下所示:
[
{ "Game Name": "Gow", "Price": "49.99", "platform": "PS4"},
{ "Game Name": "FF VII R", "Price": "59.99", "platform": "PS4"},
{ "Game Name": "Gears 5", "Price": "49.99", "platform": "XBX"},
{ "Game Name": "Forza 5", "Price": "59.99", "platform": "XBX"}
]
我试图用pandas.read_html(path/to/file)加载包含表的html文件,它确实返回了一个数据帧列表,但我不知道如何在这之后提取数据,特别是平台名称在标题中,而不是作为单独的列
我使用pandas是因为我从本地htm文件中提取这些表,这些文件包含其他形式的表和HTML代码,所以我使用:
tables = pandas.read_html(file_path, match="Game Name")
使用基于该列名的match参数快速隔离所需的表
相关问题 更多 >
编程相关推荐