使用xpath对嵌套和序列元素进行零碎分组

############### # First group # ############### <table> <tbody> <tr> <td>Heading1</td> </tr> </tbody> </table> <table> <tbody> <tr> <td> <table> <tbody> <tr> <td><a href="Foo1URL">Foo1</a></td> <td>Bar1</td> </tr> <tr> <td><a href="Foo2URL">Foo2</a></td> <td>Bar2</td> </tr> </tbody> </table> <table> <tbody> <tr> <td><a href="Foo3URL">Foo3</a></td> <td>Bar3</td> </tr> <tr> <td><a href="Foo4URL">Foo4</a></td> <td>Bar4</td> </tr> </tbody> </table> ... </td> <td> <table> <tbody> <tr> <td>Sub-Heading1</td> </tr> <tr> <td>Name1</td> <td>1</td> <td>1</td> <td>1</td> </tr> <tr> <td>Name2</td> <td>2</td> <td>2</td> <td>2</td> </tr> <tr> <td>Name3</td> <td>3</td> <td>3</td> <td>3</td> </tr> ... </tbody> </table> </td> </tr> </tbody> </table> ################ # Second group # ################ <table> <tbody> <tr> <td>Heading2</td> </tr> </tbody> </table> <table> <tbody> <tr> <td> <table> <tbody> <tr> <td><a href="Foo5URL">Foo5</a></td> <td>Bar5</td> </tr> <tr> <td><a href="Foo6URL">Foo6</a></td> <td>Bar6</td> </tr> </tbody> </table> <table> <tbody> <tr> <td><a href="Foo7URL">Foo7</a></td> <td>Bar7</td> </tr> <tr> <td><a href="Foo8URL">Foo8</a></td> <td>Bar8</td> </tr> </tbody> </table> ... </td> <td> <table> <tbody> <tr> <td>Sub-Heading2</td> </tr> <tr> <td>Name4</td> <td>4</td> <td>4</td> <td>4</td> </tr> <tr> <td>Name5</td> <td>5</td> <td>5</td> <td>5</td> </tr> <tr> <td>Name6</td> <td>6</td> <td>6</td> <td>6</td> </tr> ... </tbody> </table> </td> </tr> </tbody> </table> ################ # Third group # ################ # ... and so on

[ (Heading1, Foo1, Foo1URL, Bar1, Foo2, Foo2URL, Bar2), (Heading1, Foo3, Foo3URL, Bar3, Foo4, Foo4URL, Bar4), ... (Heading2, Foo5, Foo5URL, Bar5, Foo6, Foo6URL, Bar6), (Heading2, Foo7, Foo7URL, Bar8, Foo8, Foo8URL, Bar8), ... ]

[ (Heading1, Sub-Heading1, Name1, 1, 1, 1), (Heading1, Sub-Heading1, Name2, 2, 2, 2), (Heading1, Sub-Heading1, Name3, 3, 3, 3), ... (Heading2, Sub-Heading2, Name4, 4, 4, 4), (Heading2, Sub-Heading2, Name5, 5, 5, 5), (Heading2, Sub-Heading2, Name6, 6, 6, 6), ... ]

1条回答

网友

1楼 · 发布于 2024-04-28 06:45:31

在这种情况下，当很难区分html条目时，可以尝试依赖元素位置，这意味着类似于：

item = SomeItem()
item2 = SomeOtherItem()
for idx,t in enumerate(sel.xpath('/html/body/table')):
    if not idx % 2:
        item.field1 = t.xpath('tbody/tr/td/text()').extract()[0]
    else:
        content = t.xpath('tbody/tr/td[1]')
        item.field2 = content.xpath('table/tbody/tr/td[1]/a/@href).extract()[0]
        item.field3 = content.xpath('table/tbody/tr/td[2]/text()).extract()[0]
        sub_heading = t.xpath('tbody/tr/td[2]')
        item2.field1 = heading.xpath(...)
        ...

希望这有帮助。在

相关问题更多 >

编程相关推荐

热门问题

热门文章