如何控制Python的re.findall()在HTML字符串上返回的结果？

网友

1楼 · 编辑于 2024-05-16 13:06:45

您可以使用正则表达式来解决这个问题，但根据您所说的问题，regex不是必需的，请参见尾注1。在

您应该使用^{}来解析这个。。。在

import lxml.etree as ET
from lxml.etree import XMLParser

resultsArray = []
parser = XMLParser(ns_clean=True, recover=True)
tree = ET.parse('foo.html', parser)   # See End-Note 2
for elem in tree.findall("//"):
    if "These boats" in elem.text:
        break
    elif "Catalina 320" in elem.text:
        resultsArray.append(ET.tostring(elem).strip())


print resultsArray

执行此操作将产生：

^{pr2}$

尾注：

您的问题的当前版本没有有效的标记，但我假设您有xml或html（这是您在问题的版本1中拥有的内容）。。。我的答案可以处理您编写的文本，但是假设某种类型的结构标记更有意义，因此我使用了以下输入文本，我将其保存为本地foo.html公司名称：
```
     <body>
<tag>Blah blah blah</tag>
    <tag>**Catalina 320**</tag>
  <tag>Blah<tag>
    <td>**Catalina 320**</td>
  </tag>Blah Blah </tag>
    <tag>**These boats** are fully booked for the day</tag>
  <tag>Blah blah blah</tag>
    <tag>Catalina 320</tag>
    <tag>Catalina 320</tag>
    </body>
```
如果您想在编码问题上更小心一点，可以使用lxml.soupparser作为使用lxml
解析HTML时的备用方法

from lxml.html import soupparser
# ...
try:
    parser = XMLParser(ns_clean=True, recover=True)
    tree = ET.parse('foo.html', parser)
except UnicodeDecodeError:
    tree = soupparser.parse('foo.html')

网友

2楼 · 编辑于 2024-05-16 13:06:45

如果您的问题没有其他上下文，您可以在第一次出现'These boats'之前搜索：

re.findall('Catalina 320', string.split('These boats')[0])

网友

3楼 · 编辑于 2024-05-16 13:06:45

groups = re.findall(r'(Catalina 320)*.*These boats, r.read(), re.DOTALL)

分组中的第一组将包含Catalina 320匹配项的列表。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何控制Python的re.findall()在HTML字符串上返回的结果？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >