我试图使用正则表达式获取以<开头、以>结尾的子字符串，并将它们删除以生成新字符串

さあ、最上級の感謝を贈るぞその偉大な画家の傑作が壁にさかさまにかかっているを見て、彼は驚いた。彼はキリスト教に偏見を抱いている人種的偏見のない人はいないという事実は否定できない。ボクは旅の途中で近くを通りかかったところをシド王子にここまで誘導されたゴロ生まれたての稚魚みたいにフラフラと… 滝壺まで泳いで行って一気に滝登りだ！光っている印が神獣ヴァ・ルッタを制御する端末 芝生が素敵にみえる。

さあ、最上級の感謝を贈るぞその偉大な画家の傑作が壁にさかさまにかかっているを見て、彼は驚いた。彼はキリスト教に偏見を抱いている人種的偏見のない人はいないという事実は否定できない。ボクは旅の途中で近くを通りかかったところをシド王子にここまで誘導されたゴロ生まれたての稚魚みたいにフラフラと… 滝壺まで泳いで行って一気に滝登りだ！光っている印が神獣ヴァ・ルッタを制御する端末芝生が素敵にみえる。

2条回答

网友

1楼 · 编辑于 2024-05-15 18:45:27

你的误解在于你用来匹配和替换的模式r'\<.+\>'是greedy, meaning it will match as much as it possibly can。在您提供的这个示例中，您的模式将获取它找到的第一个<和最后一个>之间的所有（.+）。您可以在Regex101之类的工具中可视化该行为，使其更易于理解

相反，通过将?限定符添加到.+模式中，使您的模式“懒惰”：

import re

s = '彼女は<font color="#ff0000"><font color="#ff0000">看護婦</font></font>です。'
x = re.sub(r'\<.+?\>','',s)
print(x) # 彼女は看護婦です。

^Repl.it{a4}

但是，您确实应该为这种类型的活动使用适当的HTML解析器Regex is generally regarded as not being a good tool for working with HTML content.请参见Juan C's answer to this question了解如何实现这一目标的示例

网友

2楼 · 编辑于 2024-05-15 18:45:27

如果您不介意使用另一个库，您可以使用BeautifulSoup轻松地将html代码解析为字符串：

from bs4 import BeautifulSoup

s = '彼女は<font color="#ff0000"><font color="#ff0000">看護婦</font></font>です。'

soup = BeautifulSoup(s, 'lxml')

print(soup.text)

输出：

Out[29]: '彼女は看護婦です。'

相关问题更多 >

编程相关推荐

热门问题

热门文章