使用Python re删除链接

2024-04-29 12:07:14 发布

您现在位置:Python中文网/ 问答频道 /正文

假设我有一个类似<a href="/wiki/Greater_Boston" title="Greater Boston">Boston–Cambridge–Quincy, MA–NH MSA</a>的字符串

如何使用re除去链接并只获取Boston–Cambridge–Quincy, MA–NH MSA部分?你知道吗

我尝试了一些类似match = re.search(r'<.+>(\w+)<.+>', name_tmp)的方法,但没有奏效。你知道吗


Tags: 字符串researchtitle链接matchwikiboston
2条回答
re.sub('<a[^>]+>(.*?)</a>', '\\1', text)

注意,解析HTML通常是rather dangerous。但是,似乎您正在解析MediaWiki生成的链接,可以安全地假设链接的格式总是相似的,因此您应该可以使用该正则表达式。你知道吗

您还可以使用bleach模块https://pypi.python.org/pypi/bleach,该模块封装了html清理工具,并允许您快速剥离html文本

相关问题 更多 >