使用python BeautificationsOAP的表报废无法提取行的所有列。SOAP.findAll(“tr”)

2024-05-28 19:06:07 发布

您现在位置:Python中文网/ 问答频道 /正文

在这里,我试图使用python和SOAP提取表的内容(html)。 我可以看到SOAP.findAll(“tr”)的一种奇怪的行为。 我曾与多个网站合作提取数据。但是对于一个特定的页面,它包含一个包含多行的表,每行包含9列

findAll(“tr”)返回行,但只返回8列。由于某种原因,该行不包含最后一列

这是html的源代码- "

<tr>
<td>20</td>
<td>I123</td>
<td>Mr.  Vivek</td>
<!-- Code added -->
<!-- <td>C088                                                                                   </td>
              <td>abc@gmail.com</td>
              <td>THE CAI</td>
              <td style="color:red">30 Nov, 2016</td>
              <td>Registered </td> -->
<td vvalign="top" width="492">Cu88</td>
<td valign="top" width="492">cabc@gmail.com</td>
<td valign="top" width="492">THE CAI</td>
<td valign="top" width="984">30 Nov, 2016</td>
<td>
                                                                                                                                        -----
                                                                                                                                                </td> 

<td valign="top" colspan="2">Registered Under Regulation</td>
</tr>

" 当我尝试执行SOAP.findAll(“tr”)并打印行时,我可以看到以下输出

"

<tr>
<td>20</td>
<td>I123</td>
<td>Mr.  Vivek</td>
<!-- Code added -->
<!-- <td>C088                                                                                   </td>
              <td>abc@gmail.com</td>
              <td>THE CAI</td>
              <td style="color:red">30 Nov, 2016</td>
              <td>Registered </td> -->
<td vvalign="top" width="492">Cu88</td>
<td valign="top" width="492">cabc@gmail.com</td>
<td valign="top" width="492">THE CAI</td>
<td valign="top" width="984">30 Nov, 2016</td>
<td>
                                                                                                                                        -----

                                           </td> </tr>

" 最后一个由于未知原因丢失。

请建议

我是不是遗漏了什么


Tags: thecomtophtmlwidthsoaptrgmail

热门问题