如何使用正则表达式从python中带有空格的字符串中提取子字符串？

\\n display:block\\u0022\\u003E\\n div class= span_6\\u0022\\u003E\\n li class=\\u0022borderbottom padleft pad20 nomargin\\u0022\\u003E\\n span\\u003E1. XXXXXXXX\\/span\\u003E\\n strong class=\\u0022floatright\\u0022\\u003EAAAAAAAA\\/strong\\u003E\\n \\/li\\u003E\\n li class=\\u0022borderbottom padleft pad20 nomargin\\u0022\\u003E\\n span\\u003E2. YYYYYYYY\\/span\\u003E\\n strong class=\\u0022floatright\\u0022\\u003EBBBBBBBB\\/strong\\u003E\\n

1条回答

网友

1楼 · 发布于 2024-06-16 00:27:19

您可以使用以下解决方案：

import re
s = '\\n    display:block\\u0022\\u003E\\n                                  div class= span_6\\u0022\\u003E\\n                                     li class=\\u0022borderbottom padleft pad20 nomargin\\u0022\\u003E\\n   span\\u003E1. XXXXXXXX\\/span\\u003E\\n                                strong class=\\u0022floatright\\u0022\\u003EAAAAAAAA\\/strong\\u003E\\n       \\/li\\u003E\\n                                                        li class=\\u0022borderbottom padleft pad20 nomargin\\u0022\\u003E\\n   span\\u003E2. YYYYYYYY\\/span\\u003E\\n                                strong class=\\u0022floatright\\u0022\\u003EBBBBBBBB\\/strong\\u003E\\n'
unescaped_s = s.encode('latin-1', 'backslashreplace').decode('unicode-escape')
pattern = r">\d+\.\s*([^<>]*)\\/span>\s*[^>]*>([^<>]*)\\/strong"
substrings = re.findall(pattern, unescaped_s)
print(dict(substrings))

见online Python demo。首先，该字符串是未转换的，并且正则表达式应用于未转换的输入字符串版本

regex是

>\d+\.\s*([^<>]*)\\/span>\s*[^>]*>([^<>]*)\\/strong

详细信息：

>-a>字符
\d+-一个或多个数字
\.-一个点
\s*-零个或多个空格
([^<>]*)-组1：除<和>之外的零个或多个字符
\\/span>-\/span>文本
\s*-零个或多个空格
[^>]*>-除>和>字符以外的任何零个或多个字符
([^<>]*)-第2组：除<和>之外的零个或多个字符
\\/strong-a\/strong>文本

相关问题更多 >

编程相关推荐

热门问题

热门文章