在这里,我试图使用python和SOAP提取表的内容(html)。 我可以看到SOAP.findAll(“tr”)的一种奇怪的行为。 我曾与多个网站合作提取数据。但是对于一个特定的页面,它包含一个包含多行的表,每行包含9列
findAll(“tr”)返回行,但只返回8列。由于某种原因,该行不包含最后一列
这是html的源代码- "
<tr>
<td>20</td>
<td>I123</td>
<td>Mr. Vivek</td>
<!-- Code added -->
<!-- <td>C088 </td>
<td>abc@gmail.com</td>
<td>THE CAI</td>
<td style="color:red">30 Nov, 2016</td>
<td>Registered </td> -->
<td vvalign="top" width="492">Cu88</td>
<td valign="top" width="492">cabc@gmail.com</td>
<td valign="top" width="492">THE CAI</td>
<td valign="top" width="984">30 Nov, 2016</td>
<td>
-----
</td>
<td valign="top" colspan="2">Registered Under Regulation</td>
</tr>
" 当我尝试执行SOAP.findAll(“tr”)并打印行时,我可以看到以下输出
"
<tr>
<td>20</td>
<td>I123</td>
<td>Mr. Vivek</td>
<!-- Code added -->
<!-- <td>C088 </td>
<td>abc@gmail.com</td>
<td>THE CAI</td>
<td style="color:red">30 Nov, 2016</td>
<td>Registered </td> -->
<td vvalign="top" width="492">Cu88</td>
<td valign="top" width="492">cabc@gmail.com</td>
<td valign="top" width="492">THE CAI</td>
<td valign="top" width="984">30 Nov, 2016</td>
<td>
-----
</td> </tr>
" 最后一个由于未知原因丢失。
请建议
我是不是遗漏了什么
目前没有回答
相关问题 更多 >
编程相关推荐