Python中文
首页
教程
问答
标签
搜索
登录
注册
Python使用python3.6从HTML文本中清除标记
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我正在尝试创建一个程序,可以“找到”指定的HTML标记,并用其他东西“替换”这些标记(处理作为字符串导入的HTML文本)。你知道吗</p> <p>免责声明:我对python非常陌生,所以可能遗漏了一些明显的东西。 此外,基于之前的帖子主题类似于此,我猜测使用正则表达式模块可能最适合这个项目(不过我会采纳其他建议)。你知道吗</p> <p>以下是我的“输入”文本:</p> <pre><code><p align="left"><span style="font-family: Arial,Arial; font-size: 12px; color: #ffffff;">Example Company | Technical How-To</span></p> </code></pre> <p>以下是我想要的“输出”文本:</p> <pre><code><p>Example Company | Technical How-To</p> </code></pre> <p>以下是我的“输出”文本:</p> <pre><code></p> </code></pre> <p>下面是我用来得到答案的python代码:</p> <pre><code>while True: import re print("Enter HTML Text Below") original = input("") def cleaner(raw_html): cleantextp = re.sub('<p.*?>', '<p>', raw_html) cleantextspan1 = re.sub('<span.*?>', '', cleantextp) cleantextspan2 = re.sub('<.*?/span>', '', cleantextspan1) return cleantextspan2 if len(original) > 0: print(cleaner(original)) else: print("Please try again") </code></pre> <p>对我来说,奇怪的是,当我把我定义的函数“分离”出来,让它一次“清理”一个指定的标签时,它似乎工作了。示例:</p> <pre><code>while True: import re print("Enter HTML Text Below") original = input("") def cleaner(raw_html): cleantextp = re.sub('<p.*?>', '<p>', raw_html) return cleantextp if len(original) > 0: print(cleaner(original)) else: print("Please try again") </code></pre> <p>这段代码让我得到这个文本(不是有意删除<code><span></code>标记,但也不会再次返回<code></p></code>):</p> <pre><code><p><span style="font-family: Arial,Arial; font-size: 12px; color: #ffffff;">Example Company | Technical How-To</span></p> </code></pre> <p>所以基本上,我被困住了。我尝试过几种不同的方法,包括为每个标记定义一个单独的“clean”函数,并按顺序遍历每个函数的“input”文本,但我没有任何运气。有什么建议吗?你知道吗</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>使用Python的<a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/" rel="nofollow noreferrer">beautfulsoup library</a>。(您需要先安装它)。你知道吗</p> <p>网络上有很多例子,可以准确地找到你需要的东西</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
如何在Excel中读取公式并将其转换为Python中的计算?
3 回答
如何在excel中读取嵌入的excel,并将嵌入文件中的信息存储在主excel文件中?
1 回答
如何在Excel中返回未知列长度的非空顶行列值?
4 回答
如何在excel中选择数据列?
6 回答
如何在Excel中通过脚本自动为一列中的所有单元格创建公共别名
2 回答
如何在excel中高效格式化范围AttributeError:“tuple”对象没有属性“fill”
9 回答
如何在excel单元格中编写python函数
10 回答
如何在excel单元格中自动执行此python代码?
2 回答
如何在excel工作表中创建具有相应值的新列
1 回答
如何在Excel工作表中复制条件为单元格颜色的python数据框?
8 回答
如何在Excel工作表中循环
3 回答
如何在excel工作表中打印嵌套词典?
2 回答
如何在excel工作表中绘制所有类的继承树?
3 回答
如何在Excel工作表中自动调整列宽?
7 回答
如何在excel工作表中追加并进一步处理
9 回答
如何在excel工作表之间进行更改?
8 回答
如何在excel或csv上获取selenium数据?
8 回答
如何在Excel或Python中将正确的值赋给正确的列
6 回答
如何在excel或python中提取单词周围的文本?
5 回答
如何在excel或python中转换来自Jira的3w 1d 4h的fromat数据?
2 回答