Python中文
首页
教程
问答
标签
搜索
登录
注册
如何在python中使用标准库解析格式错误的HTML
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>有太多的<a href="http://docs.python.org/library/markup.html" rel="noreferrer">html and xml libraries built into python</a>,很难相信没有对实际HTML解析的支持。</p> <p>我已经为这个任务找到了很多优秀的第三方库,但是这个问题是关于<a href="https://www.cnpython.com/book/596" class="inner-link">python标准库</a>的。</p> <p>要求:</p> <ul> <li>仅使用Python标准库组件(任何2.x版本)</li> <li>DOM支持</li> <li>处理HTML实体(<code>&nbsp;</code>)</li> <li>处理部分文档(例如:<code>Hello, <i>World</i>!</code>)</li> </ul> <p>加分:</p> <ul> <li>XPATH支持</li> <li>处理未关闭/格式错误的标记。(<code><big>does anyone here know <html ???</code></li> </ul> <hr/> <p>这是我要求的90%的解决方案。这适用于我尝试过的有限的HTML集合,但是正如每个人都清楚地看到的那样,这并不完全是健壮的。因为我盯着文档看了15分钟和一行代码,所以我想我可以向stackoverflow社区咨询类似但更好的解决方案。。。</p> <pre><code>from xml.etree.ElementTree import fromstring DOM = fromstring("<html>%s</html>" % html.replace('&nbsp;', '&#160;')) </code></pre>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>您的选择是更改您的需求,或者复制第三方模块开发人员所做的所有工作。</p> <p>漂亮的soup由一个包含2000行代码的python文件组成,如果依赖性太大,那么继续写你自己的,它不会很好地工作,而且可能不会小很多。</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
如何在Excel中读取公式并将其转换为Python中的计算?
6 回答
如何在excel中读取嵌入的excel,并将嵌入文件中的信息存储在主excel文件中?
4 回答
如何在Excel中返回未知列长度的非空顶行列值?
6 回答
如何在excel中选择数据列?
6 回答
如何在Excel中通过脚本自动为一列中的所有单元格创建公共别名
8 回答
如何在excel中高效格式化范围AttributeError:“tuple”对象没有属性“fill”
5 回答
如何在excel单元格中编写python函数
10 回答
如何在excel单元格中自动执行此python代码?
9 回答
如何在excel工作表中创建具有相应值的新列
10 回答
如何在Excel工作表中复制条件为单元格颜色的python数据框?
4 回答
如何在Excel工作表中循环
3 回答
如何在excel工作表中打印嵌套词典?
8 回答
如何在excel工作表中绘制所有类的继承树?
10 回答
如何在Excel工作表中自动调整列宽?
9 回答
如何在excel工作表中追加并进一步处理
4 回答
如何在excel工作表之间进行更改?
1 回答
如何在excel或csv上获取selenium数据?
8 回答
如何在Excel或Python中将正确的值赋给正确的列
7 回答
如何在excel或python中提取单词周围的文本?
8 回答
如何在excel或python中转换来自Jira的3w 1d 4h的fromat数据?
1 回答