Python中文
首页
教程
问答
标签
搜索
登录
注册
Python使用python3.6从HTML文本中清除标记
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我正在尝试创建一个程序,可以“找到”指定的HTML标记,并用其他东西“替换”这些标记(处理作为字符串导入的HTML文本)。你知道吗</p> <p>免责声明:我对python非常陌生,所以可能遗漏了一些明显的东西。 此外,基于之前的帖子主题类似于此,我猜测使用正则表达式模块可能最适合这个项目(不过我会采纳其他建议)。你知道吗</p> <p>以下是我的“输入”文本:</p> <pre><code><p align="left"><span style="font-family: Arial,Arial; font-size: 12px; color: #ffffff;">Example Company | Technical How-To</span></p> </code></pre> <p>以下是我想要的“输出”文本:</p> <pre><code><p>Example Company | Technical How-To</p> </code></pre> <p>以下是我的“输出”文本:</p> <pre><code></p> </code></pre> <p>下面是我用来得到答案的python代码:</p> <pre><code>while True: import re print("Enter HTML Text Below") original = input("") def cleaner(raw_html): cleantextp = re.sub('<p.*?>', '<p>', raw_html) cleantextspan1 = re.sub('<span.*?>', '', cleantextp) cleantextspan2 = re.sub('<.*?/span>', '', cleantextspan1) return cleantextspan2 if len(original) > 0: print(cleaner(original)) else: print("Please try again") </code></pre> <p>对我来说,奇怪的是,当我把我定义的函数“分离”出来,让它一次“清理”一个指定的标签时,它似乎工作了。示例:</p> <pre><code>while True: import re print("Enter HTML Text Below") original = input("") def cleaner(raw_html): cleantextp = re.sub('<p.*?>', '<p>', raw_html) return cleantextp if len(original) > 0: print(cleaner(original)) else: print("Please try again") </code></pre> <p>这段代码让我得到这个文本(不是有意删除<code><span></code>标记,但也不会再次返回<code></p></code>):</p> <pre><code><p><span style="font-family: Arial,Arial; font-size: 12px; color: #ffffff;">Example Company | Technical How-To</span></p> </code></pre> <p>所以基本上,我被困住了。我尝试过几种不同的方法,包括为每个标记定义一个单独的“clean”函数,并按顺序遍历每个函数的“input”文本,但我没有任何运气。有什么建议吗?你知道吗</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>使用Python的<a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/" rel="nofollow noreferrer">beautfulsoup library</a>。(您需要先安装它)。你知道吗</p> <p>网络上有很多例子,可以准确地找到你需要的东西</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
将Pandas数据帧转换为PyTorch张量?
2 回答
将Pandas数据帧转换为scipy稀疏矩阵
7 回答
将Pandas数据帧转换为Spark Datafram时出现问题
5 回答
将pandas数据帧转换为spark DataFram时出错
9 回答
将Pandas数据帧转换为spark datafram时收到错误
7 回答
将Pandas数据帧转换为Spark数据帧
5 回答
将Pandas数据帧转换为Tensorflow数据
8 回答
将Pandas数据帧转换为tkinter obj
2 回答
将pandas数据帧转换为XML
2 回答
将Pandas数据帧转换为值sql语句
8 回答
将pandas数据帧转换为元组
8 回答
将pandas数据帧转换为元组列表
8 回答
将pandas数据帧转换为元组列表并删除所有pandas数据类型
7 回答
将pandas数据帧转换为具有头和数据类型的numpy数组
2 回答
将pandas数据帧转换为内存中的拼花地板,并将其加载到Python中的Hadoop中
1 回答
将pandas数据帧转换为内存中类似文件的对象?
3 回答
将Pandas数据帧转换为内存功能(&F)
3 回答
将pandas数据帧转换为列表列表
9 回答
将pandas数据帧转换为列表列表以输入到RNN
9 回答
将Pandas数据帧转换为单行DataFram
4 回答