从Python文本文件中提取特定HTML标签之间的文本

2024-04-18 00:24:58 发布

您现在位置:Python中文网/ 问答频道 /正文

我浏览了人们之前在这个论坛上提出的问题。但我找不到解决办法。所以,我真的为类似的问题道歉。你知道吗

我的问题是:

我有一个文本文件,其中包含HTML标记和文本。我想检索特定HTML标记之间的文本。
从HTML标记中检索文本后,我想用一个常量字符串替换该文本。你知道吗

例如

"<span class="proflinkWrapper"><span class="proflinkPrefix">+</span><a class="proflink" href="https://xyzlink" id=123456">Donald</a></span>"

我希望结果是+Donald,然后替换为“总统”

我需要找到并替换整个文件中这个特定标记之间的文本。这些标签之间的文本不相同,但希望用“总统”替换每个文本


Tags: 字符串标记文本html论坛classspan总统
1条回答
网友
1楼 · 发布于 2024-04-18 00:24:58

您可以使用类似BeautifulSoup

from bs4 import BeautifulSoup
str = '<span class="proflinkWrapper"><span class="proflinkPrefix">+</span><a class="proflink" href="https://xyzlink" id="123456">Donald</a></span>'
soup = BeautifulSoup(str,'lxml')
try:
    span = soup.find("span",{"class": "proflinkWrapper"}).find("span",{"class": "proflinkPrefix"})
    a = soup.find("a",id="123456")
    a.string = a.text.replace(a.text, "president")
    print (soup.prettify())
except:
    print ("Exception")

相关问题 更多 >

    热门问题