分割HTML文档-Python

for i, br in enumerate(soup.findAll('b')): line_value = '' line_values = [] next = br.next while (next): if next and isinstance(next, Tag) and next.name == 'br': line_values.append(line_value) line_value = '' else: stripped_text = ''.join(BeautifulSoup(str(next).strip()).findAll(text=True)) if stripped_text: line_value += stripped_text next = next.nextSibling print line_values

2条回答

网友

1楼 · 编辑于 2024-06-16 08:25:00

用正则表达式拆分

import re
p = re.compile(r'<br>')
filter(None, p.split(yourString))

然后可以从数组中每个返回的字符串中删除其他html标记。在

您可以使用现有函数，如Strip html from strings in python 或者检查我对问题Stripping HTML tags without using HtmlAgilityPack的回答。在

同时检查这个答案：RegEx match open tags except XHTML self-contained tags

您应该使用html解析器来完成您的任务

网友

2楼 · 编辑于 2024-06-16 08:25:00

试试这个：

正则表达式

<p><font size="1" color="#800000"><b>(\d{2}:\d{2}).*?(\d{2}:\d{2}).*?(\w{2}\d{4}).*?<font> - </font>(\w+)\s*<font>- </font>\s*(\d\w)\s*<br>\s*(\w\d{4}\s*\w\d{4})\s*<br>[\s\S]*?</p>

模式

m - multiline

只要html代码的结构不变，这就可以工作。在

相关问题更多 >

编程相关推荐

热门问题

热门文章