仅在Beautifulsoup中的特定跨度内容之后获取表内容

<div><span>Item 1</span></div> <div>some content</div> <div><table><tbody>table content</tbody></table></div> <div><span>Item 2</span></div> <div>some content</div> <div><table><tbody>table content</tbody></table></div> <div><span>Item 3</span></div> <div>some content</div> <div><table><tbody>table content</tbody></table></div> <div><span>Item 4</span></div> <div>some content</div> <div><table><tbody>table content</tbody></table></div>

1条回答

网友
1楼 · 发布于 2024-05-17 17:33:51

只需使用find_all_next：
table = soup.find(text='Item 3').find_all_previous()[2].find_all_next()
我的完整代码：
from bs4 import BeautifulSoup html = ''' <div><span>Item 1</span></div> <div>some content</div> <div><table><tbody>table content</tbody></table></div> <div><span>Item 2</span></div> <div>some content</div> <div><table><tbody>table content</tbody></table></div> <div><span>Item 3</span></div> <div>some content</div> <div><table><tbody>table content</tbody></table></div> <div><span>Item 4</span></div> <div>some content</div> <div><table><tbody>table content</tbody></table></div> ''' soup = BeautifulSoup(html,'html5lib') table = soup.find(text='Item 3').find_all_previous()[2].find_all_next() table_html = ''.join([str(elem) for elem in table])
输出：
>>> table [<div><span>Item 3</span></div>, <span>Item 3</span>, <div>some content</div>, <div>table content<table><tbody></tbody></table></div>, <table><tbody></tbody></table>, <tbody></tbody>, <div><span>Item 4</span></div>, <span>Item 4</span>, <div>some content</div>, <div>table content<table><tbody></tbody></table></div>, <table><tbody></tbody></table>, <tbody></tbody>] >>> table_html '<div><span>Item 3</span></div><span>Item 3</span><div>some content</div><div>table content<table><tbody></tbody></table></div><table><tbody></tbody></table><tbody></tbody><div><span>Item 4</span></div><span>Item 4</span><div>some content</div><div>table content<table><tbody></tbody></table></div><table><tbody></tbody></table><tbody></tbody>'

相关问题更多 >

编程相关推荐

热门问题

热门文章